DeepMind: Grandes modelos também estão expostos a grandes falhas e não podem corrigir seu raciocínio por conta própria, a menos que a resposta correta seja conhecida com antecedência

2023-10-23 01:58:10

Fonte original: Shin Ji Yuan

Os pesquisadores > DeepMind descobriram que o LLM tem uma falha inerente – ele não pode obter melhores respostas se autocorrigindo durante o raciocínio, a menos que os rótulos de verdade sejam predefinidos no conjunto de dados. Marcus alegremente encaminhou o papel novamente.

Fonte da imagem: Gerado por Unbounded AI

Outra grande falha do modelo de linguagem grande foi exposta pela DeepMind!

LLM não pode corrigir erros em seu próprio raciocínio.

A autocorreção, uma técnica para permitir que os modelos corrijam suas próprias respostas, pode melhorar significativamente a qualidade de saída do modelo em muitos tipos de tarefas.

Mas recentemente, pesquisadores do Google DeepMind e UIUC descobriram que o "mecanismo de autocorreção" do LLM era subitamente inútil para tarefas de raciocínio.

Além disso, LLM não só não pode auto-corrigir as respostas às tarefas de raciocínio, mas muitas vezes auto-corrige-se, a qualidade das respostas também irá diminuir significativamente.

Marcus também retuitou o artigo, na esperança de chamar a atenção de mais pesquisadores para essa falha do modelo de linguagem grande.

A técnica de "auto-correção" baseia-se na simples ideia de permitir que o LLM corrija e melhore o seu conteúdo gerado de acordo com determinados critérios. Este método pode melhorar significativamente a qualidade dos resultados do modelo em tarefas como problemas matemáticos.

Mas os pesquisadores descobriram que, na tarefa de raciocínio, o feedback após a autocorreção às vezes era muito bom, às vezes o efeito era muito ruim e até mesmo o desempenho diminuía.

Os pesquisadores também estudaram a literatura que acreditava que a "autocorreção" poderia melhorar o resultado do raciocínio e, após um exame mais atento, descobriram que a melhoria da "autocorreção" vinha da introdução de informações externas para orientar o modelo para a autocorreção. E quando a informação externa não é introduzida, essas melhorias desaparecem.

Especificamente, a autocorreção funciona efetivamente quando o modelo tem acesso a rótulos de verdade-base contidos no conjunto de dados de referência.

Isso ocorre porque o algoritmo pode determinar exatamente quando parar o processo de inferência e evitar alterar a resposta quando ela já estiver correta.

Os pesquisadores acreditam que rótulos reais tendem a ser usados em estudos anteriores para evitar que modelos mudem respostas corretas para respostas incorretas. Mas como evitar essa situação de "correção correta" é, na verdade, a chave para garantir o sucesso da autocorreção.

Porque quando os pesquisadores removem o rótulo verdadeiro do processo de autocorreção, o desempenho do modelo se degrada significativamente.

Como uma tentativa de melhorar a abordagem autocorretiva do LLM para tarefas de raciocínio, os pesquisadores também exploraram o potencial do "debate multiagente" como um meio de melhorar o raciocínio. No entanto, os seus resultados mostram que este método não funciona melhor do que a auto-consistência quando se considera um número igual de respostas.

Os pesquisadores propuseram ainda os conceitos de "pré-prompt" e "pós-prompt".

Eles veem a autocorreção como uma forma de prompt post-hoc, onde o prompt corretivo é inserido após a resposta do LLM.

A análise dos pesquisadores sugere que o aprimoramento da autocorreção em algumas tarefas pode decorrer de prompts de feedback bem projetados que mascaram prompts iniciais brutos.

Nesse caso, integrar um feedback melhor nas instruções iniciais ou projetar prompts iniciais melhores pode produzir melhores resultados e reduzir os custos de inferência.

Com base nas descobertas dos pesquisadores, os pesquisadores mergulharam nas nuances da capacidade do LLM de se autocorrigir, instando a comunidade de pesquisa a abordar a pesquisa de autocorreção com maior rigor.

Os grandes modelos linguísticos podem autocorrigir o seu raciocínio? **

Os pesquisadores tentaram pegar o método de autocorreção existente, empregando sua configuração (usando rótulos para orientar o processo de autocorreção) para examinar sua eficácia na melhoria do desempenho em tarefas de raciocínio LLM.

Configuração da experiência

Palavras rápidas

Os pesquisadores usaram uma estratégia de três passos para se autocorrigir:

avisar o modelo para a geração inicial (este também é o resultado de prompts padrão);
solicitar que o modelo reveja sua geração anterior e gere feedback;
Responda à pergunta original novamente através do modelo de prompt de feedback.

Modelo

O principal teste dos pesquisadores foi realizado em GPT-3.5-Turbo.

Os pesquisadores também testaram o GPT-4, acessado em 29 de agosto de 2023, com o objetivo de testar os recursos de autocorreção das iterações mais recentes e poderosas dos modelos OpenAI.

Para o GPT-3.5, os pesquisadores usaram o conjunto completo de avaliações mencionadas anteriormente. Para o GPT-4, para reduzir custos, os pesquisadores amostraram aleatoriamente 200 perguntas para cada conjunto de dados (100 perguntas para HotpotQA) para teste.

Resultados e Reflexões

Embora os pesquisadores não tenham utilizado nenhum recurso ou ferramenta externa em seus experimentos, os pesquisadores seguiram o trabalho anterior, usando rótulos de verdade para determinar quando parar o ciclo de autocorreção.

Mas no mundo real, especialmente quando os pesquisadores pretendem resolver problemas matemáticos com LLM, na maioria das vezes a resposta certa não é conhecida.

Portanto, a melhoria do desempenho precisa ser considerada com mais cuidado.

Para confirmar essa ideia, os pesquisadores projetaram uma linha de base baseada em palpites aleatórios. Nesta linha de base, os pesquisadores continuam a usar rótulos de verdade para determinar quando parar; No entanto, as ações corretivas não são tomadas pelo LLM, mas são baseadas em suposições aleatórias das opções restantes.

O CommonSenseQA é um conjunto de dados de perguntas de múltipla escolha que fornece cinco opções de candidatos para cada pergunta.

Se a precisão de geração da késima rodada (a geração inicial é redonda 0) é expressa como x, a precisão esperada das construções subsequentes torna-se x + (1 − x)/(5 − k).

Os resultados desta linha de base aleatória são apresentados na Tabela 2 acima.

Após 2 rodadas, seu desempenho é comparável ou até melhor do que a autocalibração, e após 4 rodadas, sua precisão atinge 100%.

No entanto, é evidente que essa base de referência aleatória não pode ser considerada um método de correção eficaz. Ainda assim, os resultados obtidos usando rótulos podem funcionar como um oráculo, indicando que existem verificadores perfeitos que podem julgar a correção de uma resposta.

Em tarefas como geração de código, isso é viável porque os pesquisadores podem utilizar executores e testes de unidade para determinar se o código gerado é executado com sucesso (Chen et al., 2023b).

No entanto, para tarefas de raciocínio, como resolver problemas matemáticos, essa configuração parece contraintuitiva. Se os pesquisadores já têm a verdade, parece não haver razão para usar LLM para resolver o problema.

Autocorreção intrínseca

Para GSM8K, uma linha de base aleatória semelhante pode não existir, mas a lógica permanece a mesma.

Além disso, os pesquisadores podem projetar uma linha de base, como gerar números aleatórios um de cada vez. Depois de algumas rodadas, pode obter a resposta certa, mas tal melhoria claramente não faz sentido. A razão mais imediata: por que os pesquisadores fariam isso se já sabiam a resposta?

A configuração experimental é definida anteriormente. Para conseguir isso, os pesquisadores simplesmente removeram o rótulo de uso para determinar quando parar e avaliaram o desempenho por meio de duas rodadas de autocorreção.

A Tabela 3 acima mostra a precisão e o número de chamadas do modelo. Os pesquisadores observaram que, após a autocorreção, o desempenho do modelo se degradou em todos os benchmarks.

Por que o desempenho se degradou?

A Figura 1 acima resume os resultados da mudança de resposta após duas rodadas de autocorreção usando GPT-3.5, e dois exemplos são mostrados na Figura 2 abaixo.

Para GSM8K, o modelo mantém sua resposta inicial com uma probabilidade de 74,7%. Nos restantes casos, o modelo tinha maior probabilidade de modificar a resposta correta para a resposta errada do que modificar a resposta errada para a resposta correta.

Para o CommonSenseQA, é mais provável que o GPT-3.5 mude sua resposta. A principal razão para isso é que as opções de resposta erradas no CommonSenseQA muitas vezes parecem um pouco relacionadas à pergunta, e usar dicas de autocorreção pode enviesar o modelo a favor da escolha de outra opção, resultando em uma alta taxa de "erro ⇒ correto".

Deixemos que os pesquisadores olhem novamente para os resultados mostrados na Tabela 1 acima. Esses resultados usam rótulos de verdade para evitar que o modelo altere a resposta correta para a resposta errada.

No entanto, como evitar esse "erro de correção" é, na verdade, a chave para garantir o sucesso da autocorreção.

A explicação intuitiva é que, se o modelo corresponder a um prompt inicial bem projetado, dado o prompt e o algoritmo de decodificação específico, a resposta inicial já deve ser ótima.

Introduzir feedback pode ser visto como adicionar dicas extras que podem enviesar o modelo para produzir respostas que se encaixam nessa combinação de entradas.

Em uma configuração de autocorreção intrínseca, em uma tarefa de inferência, esse prompt suplementar pode não fornecer nenhuma vantagem adicional para responder à pergunta.

Na verdade, pode até desviar o modelo de produzir a melhor resposta ao prompt inicial, resultando em desempenho degradado.

Pode-se perguntar: as pistas de autocorreção testadas pelos pesquisadores não são ideais?

Outras dicas podem melhorar o desempenho? A resposta é: é perfeitamente possível que os pesquisadores encontrem uma dica que melhore o desempenho do modelo em um benchmark específico. No entanto, isso não é mais consistente com a configuração de autocorreção intrínseca discutida neste artigo, semelhante à discussão de uma configuração verdadeira com menos amostras.

Essa busca essencialmente aproveita o feedback de humanos ou exemplos de treinamento. Além disso, a mesma estratégia pode ser efetivamente aplicada para otimizar as dicas iniciais, potencialmente alcançando um melhor desempenho sem a necessidade de chamadas de modelo adicionais para autocorreção.

No Apêndice B, os pesquisadores testaram dicas diferentes, mas descobriram que o desempenho ainda não melhorou.

Além disso, os pesquisadores não são os primeiros a observar que a autocorreção não melhora necessariamente a capacidade de raciocínio LLM. Em resumo, o foco dos pesquisadores não está em abordar questões como: "Existem pistas autocorretivas que podem melhorar o desempenho de um determinado benchmark?" e assim por diante. Tais perguntas podem não ser particularmente significativas.

Em vez disso, os pesquisadores pretendem resolver uma questão mais fundamental: "Os grandes modelos de linguagem podem realmente corrigir seu raciocínio por conta própria com base apenas em sua capacidade inerente?"

Autocorreção como reflexão posterior**

Em conteúdos anteriores, os pesquisadores observaram que o LLM enfrentava desafios para se autocorrigir seu raciocínio.

No entanto, como pesquisas anteriores demonstraram, a autocorreção em alguns casos produziu resultados impressionantes.

Portanto, é fundamental identificar discrepâncias e identificar as causas profundas.

Para resolver este problema, é importante compreender a natureza básica da autocorreção. Na sua forma, a autocorreção pode ser vista como uma reflexão posterior.

Ele difere dos prompts padrão (chamados de pré-prompts aqui) porque os prompts são feitos em cima das respostas do LLM.

Os pesquisadores chamam o processo de melhoria dessas pistas de engenharia de prompt pós-evento.

Portanto, a autocorreção melhora as respostas do modelo quando a autocorreção pode fornecer orientação ou feedback valioso que os prompts anteriores não podem fornecer.

Por exemplo, quando o objetivo é tornar a resposta mais segura, pode ser desafiador orientar o modelo a produzir uma resposta completamente livre de riscos na primeira tentativa, usando apenas dicas pré-hoc. Neste caso, a autocorreção pode ser usada como um meio para aumentar a segurança da resposta através de verificações post mortem refinadas.

No entanto, este pode não ser o caso das tarefas de inferência.

Avisos de feedback, como "Revise suas respostas anteriores e encontre um problema com suas respostas". Não proporciona necessariamente benefícios tangíveis para o raciocínio.

Além disso, mesmo que se observe uma melhoria significativa no desempenho após a autocorreção, é necessária uma consideração cuidadosa do projeto imediato.

Por exemplo, se a resposta precisa atender a critérios que podem ser facilmente especificados na instrução inicial (por exemplo, a saída deve conter certas palavras, o código gerado precisa ser eficiente, o sentimento deve ser fortemente negativo), em vez de fornecer esses requisitos como feedback no prompt post-mortem, uma estratégia alternativa mais econômica é incorporar esses requisitos diretamente (explicitamente) no pré-prompt.

Os resultados da Tabela 5 acima mostram que a sugestão cuidadosamente desenhada pelos pesquisadores "pista padrão (do investigador)" foi superior aos resultados autocorrigidos de estudos anteriores.

Além disso, o desempenho até se degrada quando os pesquisadores usam suas dicas para melhorar a produção dos pesquisadores.

Mais uma vez, o objetivo dos pesquisadores aqui não é discutir se há prompts post-hoc que podem superar aqueles que os pesquisadores escrevem à vontade. O principal objetivo dos pesquisadores é incentivar um escrutínio mais rigoroso dos experimentos de autocalibração.

Não faz sentido usar prompts postmortem bem projetados para orientar os modelos a "autocorrigir" as respostas geradas por meio de pré-prompts ruins.

A fim de fazer uma comparação justa, esforços iguais devem ser feitos em prompts anteriores e posteriores ao evento.

Recursos:

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
1/3
1CandyDrop Airdrop Event 6.0
64k Popularidade
2White House Crypto Report
59k Popularidade
3Join Alpha RION Airdrop to Earn $40
45k Popularidade
4Fed Holds Rates Decision
9k Popularidade
5July Spark Program TOP 10 Creators Announced
3k Popularidade

Marcar

sitemap

DeepMind: Grandes modelos também estão expostos a grandes falhas e não podem corrigir seu raciocínio por conta própria, a menos que a resposta correta seja conhecida com antecedência

Configuração da experiência

**Por que o desempenho se degradou? **

Por que o desempenho se degradou?