A precisão das informações de texto longo excede o ChatGPT, e Meta propõe um novo método para reduzir a ilusão de modelos grandes

Fonte: Qubits

Existe uma nova solução para o problema das alucinações dos modelos grandes!

Meta AI Labs propõe uma solução “dividir para conquistar”.

Com esta solução, a precisão da informações emitidas pelo Llama-65B dobrou, superando até mesmo o ChatGPT.

A chamada ilusão do grande modelo consiste em produzir algum conteúdo que parece razoável, mas está completamente errado.

A “Cadeia de Verificação” (CoVe) proposta por Meta desta vez é um método de cadeia semelhante à “Cadeia de Pensamento” (CoT).

A diferença é que a cadeia de pensamento “passo a passo” concentra-se mais no raciocínio lógico, enquanto a cadeia de verificação concentra-se mais na informação factual**.

Depois de lê-lo, alguns internautas descobriram que essa cadeia de verificação é muito semelhante a um método científico ao escrever código usando ChatGPT:

Então, o que é exatamente o método de “cadeia de verificação” e o que é “verificação”?

Desmonte a resposta, divida e conquiste

A ideia central da cadeia de verificação é dividir um grande conteúdo a ser verificado em pequenos problemas. O processo específico é o seguinte:

Primeiro, o modelo gera respostas normalmente com base na pergunta feita pelo usuário.

Então, com base no conteúdo da resposta gerado, uma série de perguntas de verificação são geradas para cada informação.

O modelo pode então responder sozinho a essas questões, e as respostas iniciais são ajustadas com base nos resultados para chegar ao resultado final.

Para dar um exemplo simples, suponha que você queira perguntar ao modelo quais foram as principais causas da Guerra EUA-México no século XIX.

O modelo responde quando o evento ocorreu e o que aconteceu antes dele.

Então, para esta série de eventos, pergunte um por um quando eles aconteceram.

Como resultado, o modelo constatou que o tempo de um dos itens mencionados estava muito distante e ajustou-o para dar a resposta final.

Entre eles, a geração e verificação de questões é a parte mais crítica.Nesse sentido, os pesquisadores propuseram quatro métodos específicos:

*Conjunto, isto é, escrever instruções para gerar perguntas e respostas na mesma palavra-chave

  • 2-Step, ou seja, primeiro deixar o modelo gerar perguntas, e depois abrir uma nova conversa (única) para responder as questões levantadas
  • Fatorado, baseado em 2 Passos, abre um novo diálogo para cada questão levantada.
  • Factor+Revise, adiciona testes de consistência com base no Factored, permitindo que o modelo se concentre em conteúdo inconsistente

Esses quatro modos estão se tornando cada vez mais refinados e sua precisão está cada vez maior.

###### Começando em vermelho, as quatro cores representam sem CoVe, Joint, Factored e Factor+Revise em ordem

Então, por que as questões de divisão podem melhorar a precisão do modelo?

Em primeiro lugar, como as questões desmontadas são mais fáceis do que a tarefa geral, as questões dissertativas tornam-se perguntas e respostas ou mesmo questões de múltipla escolha e julgamento. As questões são mais simples e a taxa de precisão é melhorada.

Além disso, decompor o problema permite que o modelo repense verdadeiramente o problema, em vez de repetir a resposta errada indefinidamente.

Então, qual é o efeito do método da cadeia de verificação?

A precisão das informações excede o ChatGPT

Para explorar esta questão, os pesquisadores usaram o Llama para realizar um teste com um total de três tarefas de teste.

A primeira é a enumeração de informações, como listar celebridades que nasceram em determinado local e atuam em determinado setor.

Nesta tarefa, os pesquisadores testaram um total de dois conjuntos de dados – o mais simples Wikidata e a lista mais difícil de categorias Wiki (extraída da Wikipedia).

Os resultados mostraram que, com o suporte da cadeia de verificação do modo de duas etapas do Llama com parâmetros 65B, a precisão das questões simples aumentou de 0,17 para 0,36, mais que dobrou**, e a precisão das questões complexas também quase dobrou.

A seguir vem a pergunta "Perguntas e respostas de domínio fechado".Os pesquisadores extraíram várias informações descontínuas do conjunto de dados MultiSpanQA e fizeram perguntas.

Por exemplo, “Quem fundou a primeira editora do mundo em que ano” (a resposta é Johannes Gutenberg, 1450).

Como resultado, Cove também trouxe uma melhoria de 20% na precisão do Llama.

A terceira tarefa é "Geração de biografia em texto longo".A pergunta é "Diga-me uma biografia de (nome da pessoa)", que é avaliada usando o conjunto de dados FactScore.

Como resultado, no modo Fator+Revisão, a taxa de precisão não é apenas significativamente maior do que a do modo de cadeia sem verificação, mas também supera o ChatGPT.

Amigos interessados nesta pesquisa podem saber mais detalhes no artigo.

Endereço do papel:

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)