GPT-4 não sabe que está errado! As novas falhas do LLM foram expostas, e a taxa de sucesso da autocorreção foi de apenas 1%, e LeCun Marcus exclamou que quanto mais ele corrigia, mais errado

2023-10-22 05:30:11

GPT-4 simplesmente não sabe que está cometendo um erro? A pesquisa mais recente descobriu que LLM na tarefa de raciocínio, após a auto-correção, não pode salvar a deterioração do desempenho, levando o chefe de IA LeCun Marcus a assistir.

Fonte original: Shin Ji Yuan

Fonte da imagem: Gerado por Unbounded AI

O grande modelo foi exposto a grandes falhas, que atraíram a atenção de LeCun e Marcus ao mesmo tempo!

No experimento de inferência, o modelo que pretendia melhorar a precisão autocorrigida, "melhorou" a taxa de precisão de 16% para 1%!

Simplificando, LLM não pode melhorar a saída na forma de auto-correção na forma de tarefas de inferência, a menos que LLM já saiba a resposta correta no processo de auto-correção.

Dois artigos publicados por pesquisadores da ASU refutam o método de "autocorreção" proposto por muitos estudos anteriores - permitindo que grandes modelos autocorrijam seus resultados de saída pode melhorar a qualidade da saída do modelo.

Endereço em papel:

O professor Subbarao Kambhampati, coautor do artigo, se comprometeu com a pesquisa da capacidade de raciocínio de IA e publicou um artigo em setembro, negando até mesmo completamente a capacidade de raciocínio e planejamento do GPT-4.

Endereço em papel:

Além deste professor, pesquisadores recentes da DeepMind e da UIUC University também questionaram a capacidade do LLM de se "autocorrigir" em tarefas de raciocínio.

O artigo ainda pede a todos os estudiosos que fazem pesquisas relevantes que levem sua pesquisa a sério, e não digam ao grande modelo a resposta correta e depois deixem que ele realize a chamada "autocorreção".

Porque se o modelo não souber a resposta correta, a qualidade da saída irá deteriorar-se após o modelo "auto-corrigir".

A seguir, vamos dar uma olhada nesses dois últimos artigos.

GPT-4 "auto-corretivo", a saída é pior

O primeiro artigo concentrou-se no GPT-4, pedindo ao GPT-4 para fornecer uma solução para o problema do sombreamento gráfico e, em seguida, tendo o GPT-4 "auto-corrigido" sua própria solução.

Ao mesmo tempo, os autores introduziram um sistema de avaliação externa para avaliar a saída direta do GPT-4 e a saída após um ciclo de "autocorreção".

Os resultados experimentais mostram que o GPT-4 é menos de 20% preciso na adivinhação de cores, o que não parece ser surpreendente.

Mas, surpreendentemente, a precisão no modo "autocorreção" caiu significativamente (a segunda barra abaixo) – completamente contrária a todas as intenções de autocorreção!

De acordo com os autores, essa situação aparentemente contraintuitiva pode ser explicada por isso: o GPT-4 também faz um trabalho terrível de verificar as respostas corretas!

Porque mesmo quando o GPT-4 acidentalmente adivinha a cor correta, sua "autocorreção" fará com que ele pense que a resposta correta é problemática e, em seguida, substitua a resposta correta.

Outras pesquisas também descobriram que o GPT-4 realmente melhoraria sua solução se um validador externo fornecesse uma resposta comprovadamente correta para a cor que adivinhava.

Neste caso, o prompt gerado pela "auto-correção" pode realmente melhorar a qualidade da saída (barras 3-5 da figura acima)

Em resumo, para a tarefa "problema de coloração", a "autocorreção" independente do GPT-4 prejudicará o desempenho da saída, porque o GPT-4 não pode verificar se a resposta está correta.

No entanto, se o processo de verificação externa correto for fornecido, a "autocorreção" gerada pelo GPT-4 pode realmente melhorar o desempenho.

Outro artigo analisou a capacidade de grandes modelos de linguagem para "auto-corrigir" a partir da perspetiva de tarefas de planejamento, e os resultados foram semelhantes ao artigo anterior.

Além disso, os pesquisadores descobriram que o que realmente melhorou a precisão da saída não foi a "autocorreção" do LLM, mas o feedback de um validador externo independente.

Em última análise, a LLM não tem como realizar uma verificação independente, e deve confiar na "resposta correta" dada por um validador externo para efetivamente "autocorrigir".

"Coloring Questions" teve um desempenho ruim e LLM não pôde verificar de forma independente as respostas corretas

Estrutura de Design de Pesquisa

O "problema de colorir" é um problema de raciocínio muito clássico, mesmo que não seja difícil, as respostas são suficientemente diversas e a exatidão das respostas é fácil de verificar.

Os resultados da diversidade tornam difícil cobrir todos os dados de treinamento do LLM, e a possibilidade de contaminação dos dados de treinamento do LLM é evitada tanto quanto possível.

Estas razões tornam o "problema de coloração" muito adequado para estudar a capacidade de raciocínio de LLM, e também é conveniente estudar a capacidade de LLM de "auto-corrigir" no raciocínio.

Os pesquisadores construíram seu próprio conjunto de dados, usando GrinPy2 para lidar com manipulações de gráficos comuns. Cada gráfico é construído usando o método de Erdos-Rényi (̋p = 0,4).

Uma vez encontrada a resposta correta, ela é compilada no formato DIMACS padrão com um comentário contendo seu número cromático pré-calculado.

Para o experimento seguinte, os pesquisadores geraram 100 instâncias, cada uma com uma média de 24 arestas, distribuídas por uma faixa de nós de 10 a 17 – uma distribuição que foi demonstrada pela experiência como sendo uma faixa suficientemente variável.

O diagrama usado pelos pesquisadores é mostrado na Figura 1 abaixo, que inclui a primeira resposta do LLM, o prompt de volta da resposta e o esquema de cores final correto.

### Arquitetura para suporte iterativo

Gerador de prompt:

Esse gerador de prompt usa uma instância DIMACS, traduz cada aresta em uma frase e, em seguida, envolve o todo em um conjunto de instruções genéricas para construir um prompt de linguagem natural.

Os pesquisadores reduziram intencionalmente as diferenças entre os diferentes prompts de instância para reduzir as informações específicas do problema que os pesquisadores vazaram para o LLM. Exemplos de vários tipos de prompts podem ser encontrados no apêndice.

Modelos de linguagem grande:

GPT-4 é chamado através da API OpenAI, que é atualmente o modelo mais avançado.

Os pesquisadores fornecem um papel do sistema: "Você é um solucionador de satisfação de restrições que resolve vários CSP (problemas de satisfação de restrições)".

Geração Traseira

No modo de autenticação, o LLM recebe um tipo diferente de prompt.

Além das instruções padrão, ele contém apenas uma descrição do diagrama e um esquema de coloração recomendado. Sua tarefa é verificar a correção, otimidade, e que cada vértice foi pintado uma cor.

Se a resposta resultante tiver um conjunto de arestas que são contraditórias, o esquema de coloração está errado.

Para comparar cada ponto, os pesquisadores também construíram um validador que listou cada aresta contraditória.

Como as respostas do LLM também estão em linguagem natural, os pesquisadores primeiro as traduziram para um formato fácil de analisar. Para tornar esse processo mais consistente, os pesquisadores projetaram dicas iniciais para descrever o formato de saída preciso que um modelo precisa seguir. A resposta é então avaliada quanto à sua correção.

Para julgar os resultados da validação do LLM, os pesquisadores examinam o desempenho na identificação de erros no esquema de sombreamento proposto.

Intuitivamente, estes devem ser fáceis de identificar: se dois vértices que compõem uma aresta partilham uma cor, regressem imediatamente a essa aresta. Do ponto de vista algorítmico, basta detetar todas as arestas e comparar a cor de cada vértice com a cor do ponto ao qual está ligado.

Verificação

Para obter uma compreensão mais profunda das capacidades de verificação do LLM, os pesquisadores estudaram seu desempenho na identificação de erros no esquema de coloração proposto.

Intuitivamente, esses erros devem ser fáceis de identificar: se dois vértices que compõem uma aresta compartilham uma cor, a borda é retornada imediatamente. Do ponto de vista algorítmico, tudo o que precisa ser feito é iterar através de todas as arestas e comparar a cor de cada vértice com a cor de seu vértice correspondente.

Os pesquisadores usaram o mesmo processo de análise, mas construíram um novo domínio que os pesquisadores chamaram de color_verification. O LLM é orientado para verificar a correção do sombreamento, a otimização e se cada vértice recebeu uma cor.

Se o sombreamento estiver incorreto, ele é instruído a listar erros no sombreamento, ou seja, se dois nós conectados compartilharem uma cor, essa borda será retornada para representar o erro. Não são dadas costas.

Os pesquisadores usaram o mesmo exemplo de gráfico anterior, mas geraram quatro esquemas de sombreamento para testar o modelo:

Correto: Um esquema de sombreamento ideal livre de erros gerado por um algoritmo ganancioso iterativo e aleatório (usando um número pré-calculado de cores para garantir a otimidade).

Ablated: Altera a cor de um nó aleatório de um conjunto anterior de esquemas de sombreamento para seus vizinhos.

Não ideal: no conjunto correto, uma parte de cor é selecionada aleatoriamente e recolorida em uma nova tonalidade.

Aleatório: Cores completamente atribuídas aleatoriamente, o número de cores diferentes é igual ao número de cores da figura.

LLM: Um esquema de coloração selecionado aleatoriamente a partir da saída gerada pelo LLM de experimentos anteriores.

Conclusão

O LLM é solicitado, as respostas são avaliadas e a próxima instância é movida sem retrocessos, resultando em uma pontuação inicial de 16%.

Quando os pesquisadores executaram a mesma instância, mas desta vez retornaram o prompt usando feedback gerado pelo mesmo modelo de linguagem atuando como um validador, o desempenho caiu drasticamente — apenas uma em cada 100 instâncias obteve a resposta correta.

Os resultados do prompt de retorno com um validador qualificado externamente podem parecer mais eficazes no início.

O número de ocorrências de respostas corretas é próximo de 40%, mas se isso significa que o GPT-4 está ouvindo, melhorando e raciocinando com base no feedback, então os pesquisadores esperam melhores resultados de prompts de retorno mais precisos.

No entanto, neste domínio, a fração bruta (ver figura 2 acima) não o prova.

Capacidade de verificação LLM

Os pesquisadores testaram a capacidade do GPT-4 de verificar esquemas de sombreamento de gráficos na mesma instância, gerando cinco tipos diferentes de esquemas de sombreamento para cada instância.

O resultado óbvio é exatamente o mesmo que o resultado de autocorreção do LLM acima: o modelo é quase relutante em marcar quaisquer respostas como corretas. Dos 100 esquemas de sombreamento ideais, concorda que apenas 2 deles estão corretos.

De toda a coleção de 500 esquemas de coloração, 118 dos quais estão corretos, apenas afirma que 30 deles estão corretos. Destes 30, apenas 5 estavam realmente corretos.

No geral, este padrão permanece o mesmo. Em menos de 10% dos casos, LLM deu uma resposta de "correto", "não ótimo" ou "atribuição ausente". Nestes casos, o comportamento parece algo aleatório.

Em cerca de um quarto dos casos, responde com uma validação "isto está incorreto" enquanto a interpretação corresponde à realidade, e só o faz indicando não mais do que um lado, minimizando a possibilidade de deturpar algo.

Os resultados são apresentados na Tabela 2 acima. Note que quando a taxa de erro do domínio aumenta, a taxa de alucinação diminui. Ou seja, quando há arestas mais incorretas, é mais provável que o modelo aponte onde algo deu errado.

LLM autocrítica, o desempenho não aumenta, mas diminui

No artigo submetido no dia 12, os autores também chegaram à mesma conclusão acima.

Quer se trate de planeamento, aritmética simples ou lógica, o GPT-4, o atual modelo de grande porte de última geração, não é totalmente competente.

Muitos pesquisadores exploraram e melhoraram isso, incluindo permitir que LLM aprenda auto-iteração, auto-validação e outras estratégias para melhorar o desempenho.

Como resultado, as pessoas na indústria estão otimistas de que o grande modelo ainda pode ser salvo!

No entanto, a complexidade da tarefa de inferência no sentido clássico não tem nada a ver com o modelo grande, porque LLM é um modelo que usa recuperação aproximada em vez de raciocínio preciso.

Em um artigo apresentado pela arXiv no dia 12, os pesquisadores da ASU avaliaram e analisaram sistematicamente a capacidade do LLM de se autocriticar no planejamento de tarefas e otimização iterativa.

No estudo, os autores propõem um sistema de planejamento que inclui o LLM gerador e o LLM validador.

Entre eles, o gerador GPT-4 é responsável por gerar planos candidatos, e o validador GPT-4 é responsável por verificar a correção do plano e fornecer feedback.

Os pesquisadores então conduziram experimentos no campo do planejamento Blocksworld e realizaram avaliações empíricas de:

O impacto da autocrítica no desempenho de geração planejada de todo o sistema LLM+LLM
o desempenho do LLM validador em relação à verificação da verdade no terreno;
Ao criticar a geração de LLM, o mesmo nível de feedback afeta o desempenho geral do sistema.

Os resultados mostram que a autocrítica reduz o desempenho da geração de planejamento LLM em comparação com o uso de um validador externo confiável.

A degradação do desempenho pode ser diretamente atribuída aos maus resultados do validador LLM, que produz um grande número de falsos positivos, o que pode prejudicar seriamente a confiabilidade do sistema.

A precisão da classificação binária do validador LLM é de apenas 61%, e há um grande número de falsos positivos (julgando o esquema errado como correto).

Além disso, de acordo com a comparação do nível de detalhe do feedback, verifica-se que ele tem pouco impacto no desempenho da geração de planejamento.

No geral, a investigação sistemática deste estudo fornece evidências preliminares que questionam a eficácia do LLM como um validador de tarefas de planejamento dentro de uma estrutura iterativa e autocrítica.

Sobre o autor

Subbarao Kambhampati

Subbarao Kambhampati é professor de ciência da computação na Arizona State University. Kambhampati pesquisa questões fundamentais no planejamento e tomada de decisão, particularmente impulsionado pelos desafios dos sistemas de inteligência artificial para a perceção humana.

Recursos:

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

2 Curtidas

Recompensa
2
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
1/3
1CandyDrop Airdrop Event 6.0
73k Popularidade
2White House Crypto Report
66k Popularidade
3Join Alpha RION Airdrop to Earn $40
51k Popularidade
4Fed Holds Rates Decision
10k Popularidade
5July Spark Program TOP 10 Creators Announced
3k Popularidade

Marcar

sitemap