O raciocínio GPT-4 é muito ultrajante! A pontuação total de matemática, física e química na universidade é menos da metade, e todos os 21 tipos de questões de raciocínio são anulados. Marcus: AGI está muito longe
Guia: O GPT-4 mais poderoso na superfície comete erros ao raciocinar perguntas uma após a outra! A pesquisa mais recente de ex-alunos do MIT e chineses da UCLA atraiu muitos internautas para assistir.
GPT-4 não consegue raciocinar de jeito nenhum!
Recentemente, dois estudos relataram que o GPT-4 funciona mal no raciocínio.
Konstantine Arkoudas, ex-aluno do MIT, avaliou o GPT-4 em 21 tipos diferentes de conjuntos de inferência.
Em seguida, é realizada uma análise qualitativa detalhada do desempenho do GPT-4 nesses problemas.
Estudos descobriram que o GPT-4 ocasionalmente mostra o talento do "cérebro mais forte", mas, no momento, o GPT-4 não tem nenhuma capacidade de raciocínio.
Endereço de papel:
Assim que a pesquisa saiu, muitos internautas se reuniram para assistir.
Marcus disse: "Se isso for verdade - como eu disse antes - ainda estamos longe de AGI. Podemos precisar fazer muita recalibração: não pode haver AGI sem raciocínio".
Outro estudo da UCLA e da Universidade de Washington também descobriu que o GPT-4 e o GPT-3.5 tiveram um desempenho ruim no raciocínio de tarefas de matemática, física e química na universidade.
Endereço de papel:
Os pesquisadores introduziram o SCIBENCH, uma fundação científica universitária de solução de problemas, que contém 2 conjuntos de dados: um conjunto de dados aberto e um conjunto de dados fechado.
Por meio de pesquisas aprofundadas sobre GPT-4 e GPT-3.5 usando diferentes estratégias de solicitação, os resultados mostram que a pontuação total média do GPT-4 é de apenas 35,8%.
Essa pesquisa também chamou mais uma vez a atenção de Marcus:
Uma pesquisa sistemática de raciocínio em matemática, química e física, mostrando que os LLMs atuais falham em fornecer desempenho satisfatório... nenhuma estratégia de sugestão é significativamente melhor do que as outras.
Vamos dar uma olhada mais de perto em como o GPT-4 falhou miseravelmente em 21 conjuntos de problemas, matemática, física e química.
21 conjuntos de problemas, rollover completo GPT-4
No entanto, antes de olhar para o GPT-4 para responder à pergunta, o autor faz uma observação:
O GPT-4 é um sistema não determinístico e pode produzir respostas diferentes em execuções diferentes, mesmo com as mesmas configurações de parâmetros.
Embora as trocas de teste a seguir sejam verbais, na experiência do autor, as coisas discutidas no artigo em que o GPT-4 dá errado tendem a ser robustas.
1 aritmética simples
Ser capaz de realizar operações básicas é uma condição necessária para o raciocínio.
No entanto, o GPT-4 ainda não pode realizar operações aritméticas básicas de forma confiável, como adição e multiplicação.
Por exemplo, deixe o GPT-4 selecionar aleatoriamente dois números entre 1381 e 1453 para multiplicar e fornecer o resultado.
GPT-4 escolheu 1405 e 1421, mas o resultado final estava obviamente errado. Porque 1405 × 1421 = 1996505.
2 contagens simples
Embora a contagem específica não seja necessariamente uma atividade de raciocínio, é certamente um pré-requisito para qualquer sistema de raciocínio com capacidade geral.
Aqui, GPT-4 recebe uma variável proposicional e prefixada com 27 símbolos de negação, solicitando que conte o número de símbolos de negação.
Para nós foi uma brisa, especialmente porque as negações são escritas com 5 de diferença e há 5 grupos, com o último par de negações imediatamente a seguir.
No entanto, GPT-4 deu "28" respostas.
3 (Médico) Senso Comum
Por enquanto, podemos pensar em argumentos de senso comum como inferências simples extraídas de informações fornecidas mais condições não declaradas (padrão, conhecimento de fundo geralmente aceito).
Nesse caso particular, o conhecimento do senso comum é uma proposição como "O homem vive até morrer e nunca mais vive após a morte".
Por exemplo, quando você pergunta ao GPT-4: A frequência cardíaca de Mable é de 75 bpm às 9h e a pressão arterial é de 120/80 às 19h. Ela morreu às 23h. Ela está viva ao meio-dia?
O GPT-4 realmente respondeu: De acordo com as informações fornecidas, é impossível determinar se Mable ainda está vivo ao meio-dia.
Mas, obviamente, com base nas informações fornecidas, a inferência de senso comum (sem pensar) leva diretamente a conclusões.
4 Lógica Elementar
Se P(x) contém Q(x) e Q(a) não é válido, então podemos deduzir do modelo que P(a) não é válido (porque se P(a) é válido, então Q(a) será segurar).
Esta é uma tautologia básica, mas GPT-4 propõe um anti-modelo inteiramente:
值得注意的是,GPT-4认识到,P(x)实际上并不包含Q(x) , e propôs que x pode ser um número par negativo, "não descarta a existência de modelos com outras condições dadas".
Na verdade, um contramodelo deve satisfazer todas as condições dadas e falsificar a conclusão ao mesmo tempo.
Além disso, apenas algumas sentenças depois, GPT-4 afirma que P(x) implica Q(x) sob a interpretação dada, contradizendo sua própria afirmação anterior.
Observe que o GPT-4 também possui inconsistências internas.
5 semânticas de quantificador simples
Considere as três frases a seguir:
[para todos x . P(x) ==> Q(x)]
[existe x . P(x)]
[existe x . ∼ Q(x)]
Por favor, falsifique ou prove a seguinte afirmação: Estas três sentenças são satisfeitas conjuntamente.
显然,这三个句子都是共同可满足的,一个简单的模型是具有P(a1)、Q(a1)、¬P(a2) e o domínio {a1, a2} de ¬Q(a2), entretanto, a conclusão tirada por GPT-4 é oposta.
6. Coloração de gráficos simples
Considere primeiro um problema de coloração de grafos sem solução.
Não é difícil ver que duas cores não são suficientes para o grafo descrito nesta questão (por exemplo, os vértices 0, 2 e 4 formam um cluster, então pelo menos 3 cores são necessárias).
Nesta saída curta, há toneladas de erros de cair o queixo.
O GPT-4 começa afirmando falsamente que o grafo está completo (obviamente não, por exemplo, nenhuma aresta entre os vértices 2 e 3).
Além disso, é óbvio que se o grafo estiver realmente completo, então é impossível colori-lo com 2 cores, pois um grafo completo com 6 vértices precisa de pelo menos 6 cores.
Em outras palavras, as afirmações do GPT-4 não são apenas erradas, mas inconsistentes: um momento nos diz (erroneamente) que este grafo de 6 vértices está completo, o que significa que é impossível colori-lo com 2 cores, e outro momento fornece A dois -cor "solução".
Vale a pena notar que a razão pela qual o GPT-4 tem um desempenho tão ruim não é porque ele não possui conhecimento ou dados gráficos suficientes.
Quando os pesquisadores perguntaram ao GPT-4 sua compreensão de "gráficos completos", ele forneceu a definição correta de "gráficos completos", juntamente com uma longa lista de resultados para K_n (gráficos completos com n vértices).
Aparentemente, o GPT-4 memorizou todas essas informações, mas não pode aplicá-las a novas condições.
7. Soma do Subconjunto
S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}. Então, quantos subconjuntos de S têm a soma de 37?
Neste problema, o subconjunto de S é par e a soma dos números pares não pode ser ímpar, então a resposta é 0.
No entanto, em vez de parar para considerar o que S contém, o GPT-4 gera reflexivamente o que pensa ser uma resposta apropriada para a pergunta e, em seguida, procede à "mágica" uma resposta "4".
8 Matemática Discreta Elementar
Diga ao GPT-4 que A × B representa o produto cartesiano dos conjuntos A e B, que a relação R de A para B é um subconjunto de A × B e que & representa a interseção do conjunto e, em seguida, peça para provar ou falsificar :
其中R1和R2是从A到B的二元关系,dom(R) Representa o domínio de uma relação binária R.
A relação de subconjunto deve ser válida em ambas as direções de (2), mas é válida apenas na direção da esquerda para a direita. Contra-exemplos na outra direção são fáceis de encontrar (por exemplo, considere A = {(1, 2)} e B = {(1,3)}).
No entanto, o GPT-4 infere que isso é verdade, o que é claramente incorreto.
9 Planos de Arranjo Simples
Na questão do tempo, o GPT-4 também errou.
Deslize para cima e para baixo para ver todos
10 Paradoxo de Russell
O paradoxo do barbeiro de Russell afirma que existe um barbeiro b que barbeia apenas aqueles que não se barbeiam.
A negação desta sentença é uma tautologia, que é facilmente deduzida usando a lógica de primeira ordem.
Se entendermos R(a,b) como sendo raspado por b, então podemos chegar a essa tautologia e pedir ao GPT-4 para prová-la ou refutá-la, como segue:
Se existe tal barbeiro x, então para todo y teremos R(y,x) <==> ∼ R(y,y), então substituir x por y dará R(x,x) <== > ∼ R(x,x), o que é uma contradição.
O GPT-4 tem um entendimento impecável da estrutura das sentenças que recebe e do que precisa fazer. Estudos de caso subseqüentes, no entanto, são confusos.
11 Mundo de tijolos
Esta é uma tarefa de raciocínio simples que requer uma análise de caso do penúltimo bloco de construção B3.
Primeiro, B3 é verde ou não é.
Se for verde, então B3 está no topo do bloco não verde B4, então a conclusão é válida.
Caso contrário, o segundo bloco verde B2 a partir do topo está no bloco não verde B3, então a conclusão ainda é válida.
No entanto, os resultados mostraram que o GPT-4 não teve um bom desempenho.
Há cinco blocos empilhados de cima para baixo: 1. O segundo bloco a partir do topo é verde 2. O quarto bloco a partir do topo não é verde Nos casos em que essas condições forem válidas, falsifique ou Prove o seguinte: Existe um bloco verde diretamente acima de um bloco não verde.
Em primeiro lugar, ao provar a conjectura, já cometeu um erro na estratégia de prova - o PT-4 assume dois casos especiais para raciocínio.
Além disso, o GPT-4 chegou a uma conclusão (embora errada) em seu próprio raciocínio, mas ainda informa ao usuário que o problema não foi resolvido ao responder. E isso reflete a inconsistência interna do modelo.
12 Raciocínio Espacial
Aqui o autor escolhe um problema de orientação do mundo real:
A resposta dada pela GPT-4 pela primeira vez está à direita, mas o autor apontou seu erro. Embora Boston, Massachusetts, esteja de fato à direita de Dakota do Sul no mapa, há uma condição adicional aqui: a orientação do corpo É o Texas.
Isso significa que Boston está à esquerda do autor.
Mais tarde, quando o GPT-4 respondeu às posições altas e baixas de Boston e Dakota do Sul, surgiu um problema mais sério: deu duas descrições contraditórias na mesma resposta.
13 Raciocínio Temporal
O autor fornece uma questão de raciocínio de tempo relativamente simples aqui, mas a resposta do GPT-4 ainda é uma bagunça.
Tom e Nancy precisam de transporte para o trabalho. O tempo de deslocamento de Nancy é de cerca de 30 a 40 minutos, enquanto o tempo de deslocamento de Tom é de cerca de 40 a 50 minutos. Na última sexta-feira, Nancy saiu de casa entre 8h10 e 8h20 da manhã e Tom chegou ao trabalho entre 8h5 e 9h10. Além disso, Nancy chega ao trabalho depois que Tom sai de casa, mas não mais de 20 minutos depois. Você pode deduzir quando Tom e Nancy chegaram ao trabalho na última sexta-feira?
Depois de classificar as informações da pergunta, o GPT-4 apresenta seu processo de raciocínio:
"Se Tom sair de casa o mais tardar possível (8h20)..." Essa frase começa errada.
Na verdade, o título não deu o último horário para Tom sair de casa, e GPT-4 usou mal o tempo de Nancy ("Nancy saiu de casa entre 8h10 e 8h20") para Tom.
Ao mesmo tempo, a declaração condicional fornecida pelo GPT-4 é confusa e a suposição contém informações (Tom) que não estão relacionadas à conclusão (horário de chegada de Nancy): "Se Tom sair de casa no último horário (8:20 am), Nancy Ela sai o mais tardar (8h20), seu trajeto é de no máximo 40 minutos e Nancy chega ao trabalho às 9h, o mais tardar."
Isso deve ser declarado como: "Se Nancy sair no último horário (8h20) e seu trajeto for de no máximo 40 minutos, então Nancy chegará ao trabalho às 9h, no máximo."
O GPT-4 infere erroneamente o seguinte: "Como o trajeto de Tom é de pelo menos 40 minutos, isso significa que ele chegará ao trabalho no máximo às 9h."
Esta conclusão obviamente não é de todo defensável. Essa conclusão não pode ser tirada do fato conhecido de que o tempo de viagem de Tom é de pelo menos 40 minutos.
A resposta a seguir ainda se baseia na falsa suposição de que o primeiro horário de partida de Tom é 8h10 (novamente, esse horário de partida é de Nancy, não de Tom).
Em seguida, afirma que Nancy chegou às 8h45, o que não se qualifica como sair de casa às 8h10 em 20 minutos.
No final, conclui incorretamente que Tom e Nancy chegaram entre 8h50 e 9h.
No processo de raciocínio, o GPT-4 exibiu repetidamente informações de maneira falsa e a resposta final também é uma resposta errada com base em condições erradas.
**14. Assassinato ou suicídio? **
O autor concebeu um quebra-cabeça lógico e listou 9 condições para pedir ao GPT-4 que descobrisse quem realmente matou a tia Agatha.
Alguém que morava na Mansão Dreadbury matou tia Agatha. 2. Os únicos ocupantes da Mansão Dreadbury são Tia Agatha, a Governanta e Charles. 3. Um assassino sempre odeia suas vítimas e nunca fica mais rico do que elas. 4. Charles não odeia pessoas que tia Agatha odeia. 5. Tia Agatha odiava todo mundo, menos a governanta. 6. O mordomo odeia todo mundo que não é mais rico que tia Agatha. 7. O mordomo odeia todo mundo que tia Agatha odeia. 8. Ninguém odeia todo mundo. 9. Tia Agatha não era dona de casa.
A resposta correta é que tia Agatha se matou.
Primeiro, pela condição 5, tia Agatha deve se odiar porque odeia todo mundo, exceto a governanta.
Portanto, de acordo com a condição 4, segue-se que Charles não a odeia, então ele não pode matá-la.
De acordo com as condições 5 e 7, é impossível para o mordomo odiar a si mesmo, porque se ele se odiasse, a condição 8 não se sustentaria e ele odiaria a todos.
De acordo com a condição 6, conclui-se que o mordomo é mais rico que tia Agatha, caso contrário ele se odiaria, o que é contraditório com o que concluímos anteriormente de que ele não se odeia.
De acordo com a condição 3, o mordomo também não será o assassino (condição 3).
No raciocínio, o GPT-4 descartou corretamente Charles, mas não conseguiu descartar o mordomo e chegou à conclusão errada: o mordomo era o assassino.
Outro erro crítico cometido pelo GPT-4: como tia Agatha odeia todos, exceto a governanta (Condição 5), isso significa que ela pelo menos não se odeia.
Este é um erro estranho, pois segue da 5ª condição que tia Agatha se odeia.
Ao mesmo tempo, o GPT-4 mais uma vez exibiu inconsistências recorrentes - em quase todas as respostas, o GPT-4 afirmou derivar uma certa proposição e sua forma negativa.
15 tarefa de seleção do Watson
A tarefa de escolha de Watson é um conteúdo básico no campo do raciocínio mental.
No artigo de janeiro, o GPT-3.5 falhou neste teste e, neste estudo, o desempenho do GPT-4 ainda não é o ideal.
Existem 7 cartas na mesa, cada carta tem um número escrito de um lado e um único bloco de cor do outro lado. A frente dessas cartas mostra 50, 16, vermelho, amarelo, 23, verde, 30.
Para determinar a veracidade da proposição "Se uma carta mostra um múltiplo de 4 na frente, a cor na parte de trás é amarela", quais cartas você precisa virar?
Essas respostas mostram que o GPT-4 não entende a semântica das declarações condicionais. Quando o GPT-4 diz que as cartas "50" e "30" devem ser viradas, parece estar confundindo a condição com uma condição necessária e suficiente.
Independentemente de a resposta do GPT-4 estar certa ou errada, suas declarações internas são inconsistentes.
16 Entropia
Uma conclusão básica da teoria da informação é: o limite superior da entropia do vetor aleatório Z não excede a soma da entropia das variáveis aleatórias que compõem Z.
Portanto, a resposta para a seguinte pergunta deve ser "em hipótese alguma".
17 Correção Simples do Compilador
O problema de inferência final para GPT-4 é o mais desafiador: provar a correção de um compilador de expressão simples.
Mas neste teste, o GPT-4 acertou a prova ao definir a indução estrutural na estrutura sintática abstrata das expressões.
Isso pode ser porque ele já viu provas semelhantes antes, e os exemplos dados pelos autores são o tipo de exercícios comumente encontrados em cursos de programação e livros didáticos.
No entanto, o GPT-4 ainda apresenta alguns erros nos detalhes.
## Conclusão: a capacidade de raciocínio é crucial, mas o GPT-4 não
Dado que o GPT-4 é atualmente o LLM mais capaz, o autor apresenta três conclusões principais com base na análise acima:
O uso de IA generativa no desenvolvimento de software (ou ciência e engenharia em geral), exceto para algumas tarefas tediosas (como uma espécie de conclusão automática acelerada de problemas de codificação intensivos em conhecimento), está repleto de riscos. Nessas áreas, a normatividade e a correção são críticas, e os LLMs atuais não atendem a esses padrões.
À medida que a capacidade de raciocínio do LLM continua a melhorar, a verificação rigorosa de provas se tornará cada vez mais importante. Essa abordagem pode examinar o raciocínio expresso em linguagem natural, pedindo aos LLMs que formalizem seu raciocínio ou treinando outros LLMs.
Tal como está, cenários distópicos de IA conquistando humanos ou humanos usando IA para fins nefastos são rebuscados, chegando ao ponto do absurdo. Quando os sistemas de IA de última geração não conseguem nem distinguir a esquerda da direita (pergunta 12 acima), pedir políticas para proteger os humanos disso é, na melhor das hipóteses, prematuro e, na pior das hipóteses, um desperdício de recursos.
Inevitavelmente, alguns podem dizer que esses resultados são "dados escolhidos". Mas isso é porque eles não entendem o que são dados de curadoria. Dependendo da estrutura lógica e do contexto geral da proposição em questão, às vezes é necessário coletar dados.
Depurar um programa de computador para descobrir e entender suas fraquezas, tentar falsificar uma teoria científica, testar um carro novo, tentar encontrar um antimodelo de um teorema putativo etc.
Por exemplo, se você descobrir que seu carro novo está com um pneu furado, a concessionária pode protestar dizendo que você está "escolhendo dados". Afinal, no que diz respeito ao carro inteiro, a taxa de integridade do pneu chega a 75%.
Da mesma forma, aplicações em ciência, medicina e engenharia, especialmente engenharia de software, têm padrões rigorosos.
Assim como não queremos uma ponte que levante colunas 90% do tempo, precisamos de algoritmos de classificação que funcionem em todas as entradas, não apenas na maioria; precisamos de carrinhos que cobram a quantia correta todas as vezes, e não apenas na maioria o tempo, etc
E esses aplicativos de computação e raciocínio intensivo, ao contrário dos mecanismos de recomendação, devem ser muito confiáveis.
Sobre o autor
Constantine Arkoudas
Até o ano passado, Konstantine Arkoudas era pesquisador do Departamento de Ciências Cognitivas da RPI e pesquisador do CSAIL do MIT.
Atualmente, ele é um Cientista de Pesquisa Sênior no Telcordia Research Laboratories, com foco em IA e aplicação de métodos formais a problemas do mundo real nas indústrias de telecomunicações e redes.
Ele recebeu seu Ph.D. em Ciência da Computação pelo MIT em 2000. Antes disso, ele também fez mestrado em ciência da computação, mestrado em filosofia e bacharelado em ciência da computação com especialização em filosofia.
Matemática, física e química da universidade, pontuação GPT-4 35,8%
Na pesquisa da UCLA, a capacidade de raciocínio de GPT-4 e GPT-3.5 em matemática, química e física foi avaliada principalmente.
Atualmente, a fim de aumentar a capacidade do LLM de resolver tarefas como matemática, algumas pessoas propuseram uma estratégia CoT conectada ao pensamento para orientar o modelo grande a gerar gradualmente respostas, de modo a pensar mais profundamente sobre o problema.
No entanto, mesmo que tal abordagem tenha suas vantagens específicas, é difícil resolver completamente problemas científicos complexos.
Abaixo, está um exemplo de problema na química física da faculdade e as soluções geradas pelas duas estratégias de sugestões.
O GPT-4 com bênção CoT tem erros de cálculo óbvios, e o GPT-4, que solicita o uso do Python como uma ferramenta externa, também interpretará mal as equações matemáticas.
Erros são marcados em vermelho, correções em roxo
Para tanto, o SCIBENCH, um referencial de nível universitário para questões científicas, foi introduzido no estudo.
Entre eles, o "conjunto de dados abertos" inclui 5 problemas coletados de livros didáticos amplamente utilizados em cursos universitários, abrangendo física básica, termodinâmica, mecânica clássica, química quântica, físico-química, cálculo, estatística e equações diferenciais.
Resumo dos Problemas do Livro Aberto (inclui porcentagem do número de problemas e porcentagem com soluções detalhadas)
O outro é um "conjunto de dados fechado", que contém 7 conjuntos de questões do exame intermediário e final para três cursos universitários em ciência da computação e matemática, a fim de simular a avaliação do mundo real.
Conjunto de dados de exame fechado (contém o número de instâncias de perguntas em cada exame e a proporção de perguntas no exame que contêm soluções detalhadas. Além disso, a proporção de perguntas em diferentes formatos, incluindo resposta livre, múltipla escolha e verdadeiro-falso respostas. Para referência, os números entre parênteses indicam pontos de crédito para perguntas.)
Ao contrário dos benchmarks existentes, todas as perguntas no SCIBENCH são perguntas abertas e de resposta livre.
Com o conjunto de dados disponível, o estudo se concentrou na avaliação de dois LLMs representativos, GPT-3.5 e GPT-4, e empregou diferentes estratégias de solicitação, incluindo CoT, aprendizado de tiro zero e aprendizado de poucos tiros.
Além disso, os pesquisadores também levaram o modelo a usar ferramentas externas, como Python e Wolfram Language.
Os resultados experimentais mostram que sem dicas complexas ou usando ferramentas externas, as taxas médias de precisão de GPT-3.5 e GPT-4 em conjuntos de dados abertos são 10,62% e 16,81%, respectivamente.
Então, depois de adicionar CoT e ferramentas externas, a taxa de precisão mais alta no mesmo conjunto de dados é de apenas 35,8%. No entanto, em comparação com antes, a taxa de precisão foi muito melhorada.
Resultados de precisão em conjuntos de dados abertos
Sob a configuração mais forte usando dicas CoT + ferramentas externas, o GPT-4 alcançou uma pontuação média de 35,80% no conjunto de dados aberto e 51,57% no conjunto de dados fechado.
Esses resultados sugerem que o GPT-4 tem um potencial considerável para melhorias em futuros LLMs.
Os resultados experimentais da pontuação total sob aprendizado zero-shot no conjunto de dados de teste
Para obter uma compreensão abrangente das limitações dos LLMs na resolução de problemas científicos, os pesquisadores propõem uma nova abordagem de "autoaperfeiçoamento" para descobrir as inadequações nas respostas feitas pelos LLMs.
Este é o "Acordo de Avaliação" da seguinte forma.
Primeiro, a solução correta é comparada com a solução gerada pelo LLM e, com a ajuda de anotadores humanos, são resumidas 10 habilidades essenciais necessárias para resolver problemas científicos com sucesso.
Inclui especificamente: decomposição lógica e habilidades analíticas; identificação de hipóteses; percepção espacial; raciocínio causal; dedução de problemas; raciocínio abstrato; alfabetização científica; troca de código; raciocínio lógico; numeramento.
A equipe então empregou uma abordagem de autoavaliação orientada pelo LLM para classificar automaticamente as habilidades que faltavam nas soluções feitas pelo LLM de linha de base para cada configuração experimental.
Perfis de erro do GPT-3.5 em conjuntos de dados de texto em 6 configurações, revelando a distribuição de defeitos em suas 10 habilidades fundamentais de resolução de problemas
Por fim, por meio da análise, constatou-se que:
(1) Embora o CoT melhore significativamente o poder de computação, é menos eficaz em outros aspectos;
(2) Dicas de uso de ferramentas externas podem prejudicar outras habilidades essenciais;
(3) O aprendizado de poucos tiros geralmente não melhora a resolução de problemas científicos.
Em suma, os resultados da pesquisa mostram que os atuais modelos de linguagem em larga escala ainda são fracos na capacidade de resolução de problemas e, com a ajuda de várias ferramentas, ainda existem limitações.
Referências:
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O raciocínio GPT-4 é muito ultrajante! A pontuação total de matemática, física e química na universidade é menos da metade, e todos os 21 tipos de questões de raciocínio são anulados. Marcus: AGI está muito longe
**Fonte:**Xinzhiyuan
Guia: O GPT-4 mais poderoso na superfície comete erros ao raciocinar perguntas uma após a outra! A pesquisa mais recente de ex-alunos do MIT e chineses da UCLA atraiu muitos internautas para assistir.
GPT-4 não consegue raciocinar de jeito nenhum!
Recentemente, dois estudos relataram que o GPT-4 funciona mal no raciocínio.
Konstantine Arkoudas, ex-aluno do MIT, avaliou o GPT-4 em 21 tipos diferentes de conjuntos de inferência.
Em seguida, é realizada uma análise qualitativa detalhada do desempenho do GPT-4 nesses problemas.
Estudos descobriram que o GPT-4 ocasionalmente mostra o talento do "cérebro mais forte", mas, no momento, o GPT-4 não tem nenhuma capacidade de raciocínio.
Assim que a pesquisa saiu, muitos internautas se reuniram para assistir.
Marcus disse: "Se isso for verdade - como eu disse antes - ainda estamos longe de AGI. Podemos precisar fazer muita recalibração: não pode haver AGI sem raciocínio".
Os pesquisadores introduziram o SCIBENCH, uma fundação científica universitária de solução de problemas, que contém 2 conjuntos de dados: um conjunto de dados aberto e um conjunto de dados fechado.
Por meio de pesquisas aprofundadas sobre GPT-4 e GPT-3.5 usando diferentes estratégias de solicitação, os resultados mostram que a pontuação total média do GPT-4 é de apenas 35,8%.
Essa pesquisa também chamou mais uma vez a atenção de Marcus:
21 conjuntos de problemas, rollover completo GPT-4
No entanto, antes de olhar para o GPT-4 para responder à pergunta, o autor faz uma observação:
O GPT-4 é um sistema não determinístico e pode produzir respostas diferentes em execuções diferentes, mesmo com as mesmas configurações de parâmetros.
Embora as trocas de teste a seguir sejam verbais, na experiência do autor, as coisas discutidas no artigo em que o GPT-4 dá errado tendem a ser robustas.
1 aritmética simples
Ser capaz de realizar operações básicas é uma condição necessária para o raciocínio.
No entanto, o GPT-4 ainda não pode realizar operações aritméticas básicas de forma confiável, como adição e multiplicação.
Por exemplo, deixe o GPT-4 selecionar aleatoriamente dois números entre 1381 e 1453 para multiplicar e fornecer o resultado.
GPT-4 escolheu 1405 e 1421, mas o resultado final estava obviamente errado. Porque 1405 × 1421 = 1996505.
Embora a contagem específica não seja necessariamente uma atividade de raciocínio, é certamente um pré-requisito para qualquer sistema de raciocínio com capacidade geral.
Aqui, GPT-4 recebe uma variável proposicional e prefixada com 27 símbolos de negação, solicitando que conte o número de símbolos de negação.
Para nós foi uma brisa, especialmente porque as negações são escritas com 5 de diferença e há 5 grupos, com o último par de negações imediatamente a seguir.
No entanto, GPT-4 deu "28" respostas.
Por enquanto, podemos pensar em argumentos de senso comum como inferências simples extraídas de informações fornecidas mais condições não declaradas (padrão, conhecimento de fundo geralmente aceito).
Nesse caso particular, o conhecimento do senso comum é uma proposição como "O homem vive até morrer e nunca mais vive após a morte".
Por exemplo, quando você pergunta ao GPT-4: A frequência cardíaca de Mable é de 75 bpm às 9h e a pressão arterial é de 120/80 às 19h. Ela morreu às 23h. Ela está viva ao meio-dia?
Mas, obviamente, com base nas informações fornecidas, a inferência de senso comum (sem pensar) leva diretamente a conclusões.
Se P(x) contém Q(x) e Q(a) não é válido, então podemos deduzir do modelo que P(a) não é válido (porque se P(a) é válido, então Q(a) será segurar).
Esta é uma tautologia básica, mas GPT-4 propõe um anti-modelo inteiramente:
Na verdade, um contramodelo deve satisfazer todas as condições dadas e falsificar a conclusão ao mesmo tempo.
Além disso, apenas algumas sentenças depois, GPT-4 afirma que P(x) implica Q(x) sob a interpretação dada, contradizendo sua própria afirmação anterior.
5 semânticas de quantificador simples
Considere as três frases a seguir:
[para todos x . P(x) ==> Q(x)]
[existe x . P(x)]
[existe x . ∼ Q(x)]
Por favor, falsifique ou prove a seguinte afirmação: Estas três sentenças são satisfeitas conjuntamente.
6. Coloração de gráficos simples
Considere primeiro um problema de coloração de grafos sem solução.
Não é difícil ver que duas cores não são suficientes para o grafo descrito nesta questão (por exemplo, os vértices 0, 2 e 4 formam um cluster, então pelo menos 3 cores são necessárias).
O GPT-4 começa afirmando falsamente que o grafo está completo (obviamente não, por exemplo, nenhuma aresta entre os vértices 2 e 3).
Além disso, é óbvio que se o grafo estiver realmente completo, então é impossível colori-lo com 2 cores, pois um grafo completo com 6 vértices precisa de pelo menos 6 cores.
Em outras palavras, as afirmações do GPT-4 não são apenas erradas, mas inconsistentes: um momento nos diz (erroneamente) que este grafo de 6 vértices está completo, o que significa que é impossível colori-lo com 2 cores, e outro momento fornece A dois -cor "solução".
Vale a pena notar que a razão pela qual o GPT-4 tem um desempenho tão ruim não é porque ele não possui conhecimento ou dados gráficos suficientes.
Quando os pesquisadores perguntaram ao GPT-4 sua compreensão de "gráficos completos", ele forneceu a definição correta de "gráficos completos", juntamente com uma longa lista de resultados para K_n (gráficos completos com n vértices).
Aparentemente, o GPT-4 memorizou todas essas informações, mas não pode aplicá-las a novas condições.
7. Soma do Subconjunto
S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}. Então, quantos subconjuntos de S têm a soma de 37?
Neste problema, o subconjunto de S é par e a soma dos números pares não pode ser ímpar, então a resposta é 0.
No entanto, em vez de parar para considerar o que S contém, o GPT-4 gera reflexivamente o que pensa ser uma resposta apropriada para a pergunta e, em seguida, procede à "mágica" uma resposta "4".
Diga ao GPT-4 que A × B representa o produto cartesiano dos conjuntos A e B, que a relação R de A para B é um subconjunto de A × B e que & representa a interseção do conjunto e, em seguida, peça para provar ou falsificar :
A relação de subconjunto deve ser válida em ambas as direções de (2), mas é válida apenas na direção da esquerda para a direita. Contra-exemplos na outra direção são fáceis de encontrar (por exemplo, considere A = {(1, 2)} e B = {(1,3)}).
No entanto, o GPT-4 infere que isso é verdade, o que é claramente incorreto.
Na questão do tempo, o GPT-4 também errou.
10 Paradoxo de Russell
O paradoxo do barbeiro de Russell afirma que existe um barbeiro b que barbeia apenas aqueles que não se barbeiam.
A negação desta sentença é uma tautologia, que é facilmente deduzida usando a lógica de primeira ordem.
Se entendermos R(a,b) como sendo raspado por b, então podemos chegar a essa tautologia e pedir ao GPT-4 para prová-la ou refutá-la, como segue:
Se existe tal barbeiro x, então para todo y teremos R(y,x) <==> ∼ R(y,y), então substituir x por y dará R(x,x) <== > ∼ R(x,x), o que é uma contradição.
O GPT-4 tem um entendimento impecável da estrutura das sentenças que recebe e do que precisa fazer. Estudos de caso subseqüentes, no entanto, são confusos.
Esta é uma tarefa de raciocínio simples que requer uma análise de caso do penúltimo bloco de construção B3.
Primeiro, B3 é verde ou não é.
Se for verde, então B3 está no topo do bloco não verde B4, então a conclusão é válida.
Caso contrário, o segundo bloco verde B2 a partir do topo está no bloco não verde B3, então a conclusão ainda é válida.
No entanto, os resultados mostraram que o GPT-4 não teve um bom desempenho.
Em primeiro lugar, ao provar a conjectura, já cometeu um erro na estratégia de prova - o PT-4 assume dois casos especiais para raciocínio.
Além disso, o GPT-4 chegou a uma conclusão (embora errada) em seu próprio raciocínio, mas ainda informa ao usuário que o problema não foi resolvido ao responder. E isso reflete a inconsistência interna do modelo.
Aqui o autor escolhe um problema de orientação do mundo real:
Mais tarde, quando o GPT-4 respondeu às posições altas e baixas de Boston e Dakota do Sul, surgiu um problema mais sério: deu duas descrições contraditórias na mesma resposta.
O autor fornece uma questão de raciocínio de tempo relativamente simples aqui, mas a resposta do GPT-4 ainda é uma bagunça.
Depois de classificar as informações da pergunta, o GPT-4 apresenta seu processo de raciocínio:
Na verdade, o título não deu o último horário para Tom sair de casa, e GPT-4 usou mal o tempo de Nancy ("Nancy saiu de casa entre 8h10 e 8h20") para Tom.
Ao mesmo tempo, a declaração condicional fornecida pelo GPT-4 é confusa e a suposição contém informações (Tom) que não estão relacionadas à conclusão (horário de chegada de Nancy): "Se Tom sair de casa no último horário (8:20 am), Nancy Ela sai o mais tardar (8h20), seu trajeto é de no máximo 40 minutos e Nancy chega ao trabalho às 9h, o mais tardar."
Isso deve ser declarado como: "Se Nancy sair no último horário (8h20) e seu trajeto for de no máximo 40 minutos, então Nancy chegará ao trabalho às 9h, no máximo."
O GPT-4 infere erroneamente o seguinte: "Como o trajeto de Tom é de pelo menos 40 minutos, isso significa que ele chegará ao trabalho no máximo às 9h."
Esta conclusão obviamente não é de todo defensável. Essa conclusão não pode ser tirada do fato conhecido de que o tempo de viagem de Tom é de pelo menos 40 minutos.
A resposta a seguir ainda se baseia na falsa suposição de que o primeiro horário de partida de Tom é 8h10 (novamente, esse horário de partida é de Nancy, não de Tom).
Em seguida, afirma que Nancy chegou às 8h45, o que não se qualifica como sair de casa às 8h10 em 20 minutos.
No final, conclui incorretamente que Tom e Nancy chegaram entre 8h50 e 9h.
No processo de raciocínio, o GPT-4 exibiu repetidamente informações de maneira falsa e a resposta final também é uma resposta errada com base em condições erradas.
O autor concebeu um quebra-cabeça lógico e listou 9 condições para pedir ao GPT-4 que descobrisse quem realmente matou a tia Agatha.
A resposta correta é que tia Agatha se matou.
Primeiro, pela condição 5, tia Agatha deve se odiar porque odeia todo mundo, exceto a governanta.
Portanto, de acordo com a condição 4, segue-se que Charles não a odeia, então ele não pode matá-la.
De acordo com as condições 5 e 7, é impossível para o mordomo odiar a si mesmo, porque se ele se odiasse, a condição 8 não se sustentaria e ele odiaria a todos.
De acordo com a condição 6, conclui-se que o mordomo é mais rico que tia Agatha, caso contrário ele se odiaria, o que é contraditório com o que concluímos anteriormente de que ele não se odeia.
De acordo com a condição 3, o mordomo também não será o assassino (condição 3).
Outro erro crítico cometido pelo GPT-4: como tia Agatha odeia todos, exceto a governanta (Condição 5), isso significa que ela pelo menos não se odeia.
Este é um erro estranho, pois segue da 5ª condição que tia Agatha se odeia.
Ao mesmo tempo, o GPT-4 mais uma vez exibiu inconsistências recorrentes - em quase todas as respostas, o GPT-4 afirmou derivar uma certa proposição e sua forma negativa.
A tarefa de escolha de Watson é um conteúdo básico no campo do raciocínio mental.
No artigo de janeiro, o GPT-3.5 falhou neste teste e, neste estudo, o desempenho do GPT-4 ainda não é o ideal.
Independentemente de a resposta do GPT-4 estar certa ou errada, suas declarações internas são inconsistentes.
16 Entropia
Uma conclusão básica da teoria da informação é: o limite superior da entropia do vetor aleatório Z não excede a soma da entropia das variáveis aleatórias que compõem Z.
Portanto, a resposta para a seguinte pergunta deve ser "em hipótese alguma".
O problema de inferência final para GPT-4 é o mais desafiador: provar a correção de um compilador de expressão simples.
No entanto, o GPT-4 ainda apresenta alguns erros nos detalhes.
Dado que o GPT-4 é atualmente o LLM mais capaz, o autor apresenta três conclusões principais com base na análise acima:
O uso de IA generativa no desenvolvimento de software (ou ciência e engenharia em geral), exceto para algumas tarefas tediosas (como uma espécie de conclusão automática acelerada de problemas de codificação intensivos em conhecimento), está repleto de riscos. Nessas áreas, a normatividade e a correção são críticas, e os LLMs atuais não atendem a esses padrões.
À medida que a capacidade de raciocínio do LLM continua a melhorar, a verificação rigorosa de provas se tornará cada vez mais importante. Essa abordagem pode examinar o raciocínio expresso em linguagem natural, pedindo aos LLMs que formalizem seu raciocínio ou treinando outros LLMs.
Tal como está, cenários distópicos de IA conquistando humanos ou humanos usando IA para fins nefastos são rebuscados, chegando ao ponto do absurdo. Quando os sistemas de IA de última geração não conseguem nem distinguir a esquerda da direita (pergunta 12 acima), pedir políticas para proteger os humanos disso é, na melhor das hipóteses, prematuro e, na pior das hipóteses, um desperdício de recursos.
Inevitavelmente, alguns podem dizer que esses resultados são "dados escolhidos". Mas isso é porque eles não entendem o que são dados de curadoria. Dependendo da estrutura lógica e do contexto geral da proposição em questão, às vezes é necessário coletar dados.
Depurar um programa de computador para descobrir e entender suas fraquezas, tentar falsificar uma teoria científica, testar um carro novo, tentar encontrar um antimodelo de um teorema putativo etc.
Por exemplo, se você descobrir que seu carro novo está com um pneu furado, a concessionária pode protestar dizendo que você está "escolhendo dados". Afinal, no que diz respeito ao carro inteiro, a taxa de integridade do pneu chega a 75%.
Da mesma forma, aplicações em ciência, medicina e engenharia, especialmente engenharia de software, têm padrões rigorosos.
Assim como não queremos uma ponte que levante colunas 90% do tempo, precisamos de algoritmos de classificação que funcionem em todas as entradas, não apenas na maioria; precisamos de carrinhos que cobram a quantia correta todas as vezes, e não apenas na maioria o tempo, etc
E esses aplicativos de computação e raciocínio intensivo, ao contrário dos mecanismos de recomendação, devem ser muito confiáveis.
Sobre o autor
Constantine Arkoudas
Até o ano passado, Konstantine Arkoudas era pesquisador do Departamento de Ciências Cognitivas da RPI e pesquisador do CSAIL do MIT.
Atualmente, ele é um Cientista de Pesquisa Sênior no Telcordia Research Laboratories, com foco em IA e aplicação de métodos formais a problemas do mundo real nas indústrias de telecomunicações e redes.
Ele recebeu seu Ph.D. em Ciência da Computação pelo MIT em 2000. Antes disso, ele também fez mestrado em ciência da computação, mestrado em filosofia e bacharelado em ciência da computação com especialização em filosofia.
Matemática, física e química da universidade, pontuação GPT-4 35,8%
Na pesquisa da UCLA, a capacidade de raciocínio de GPT-4 e GPT-3.5 em matemática, química e física foi avaliada principalmente.
Atualmente, a fim de aumentar a capacidade do LLM de resolver tarefas como matemática, algumas pessoas propuseram uma estratégia CoT conectada ao pensamento para orientar o modelo grande a gerar gradualmente respostas, de modo a pensar mais profundamente sobre o problema.
No entanto, mesmo que tal abordagem tenha suas vantagens específicas, é difícil resolver completamente problemas científicos complexos.
Abaixo, está um exemplo de problema na química física da faculdade e as soluções geradas pelas duas estratégias de sugestões.
O GPT-4 com bênção CoT tem erros de cálculo óbvios, e o GPT-4, que solicita o uso do Python como uma ferramenta externa, também interpretará mal as equações matemáticas.
Para tanto, o SCIBENCH, um referencial de nível universitário para questões científicas, foi introduzido no estudo.
Entre eles, o "conjunto de dados abertos" inclui 5 problemas coletados de livros didáticos amplamente utilizados em cursos universitários, abrangendo física básica, termodinâmica, mecânica clássica, química quântica, físico-química, cálculo, estatística e equações diferenciais.
O outro é um "conjunto de dados fechado", que contém 7 conjuntos de questões do exame intermediário e final para três cursos universitários em ciência da computação e matemática, a fim de simular a avaliação do mundo real.
Ao contrário dos benchmarks existentes, todas as perguntas no SCIBENCH são perguntas abertas e de resposta livre.
Com o conjunto de dados disponível, o estudo se concentrou na avaliação de dois LLMs representativos, GPT-3.5 e GPT-4, e empregou diferentes estratégias de solicitação, incluindo CoT, aprendizado de tiro zero e aprendizado de poucos tiros.
Além disso, os pesquisadores também levaram o modelo a usar ferramentas externas, como Python e Wolfram Language.
Os resultados experimentais mostram que sem dicas complexas ou usando ferramentas externas, as taxas médias de precisão de GPT-3.5 e GPT-4 em conjuntos de dados abertos são 10,62% e 16,81%, respectivamente.
Então, depois de adicionar CoT e ferramentas externas, a taxa de precisão mais alta no mesmo conjunto de dados é de apenas 35,8%. No entanto, em comparação com antes, a taxa de precisão foi muito melhorada.
Sob a configuração mais forte usando dicas CoT + ferramentas externas, o GPT-4 alcançou uma pontuação média de 35,80% no conjunto de dados aberto e 51,57% no conjunto de dados fechado.
Esses resultados sugerem que o GPT-4 tem um potencial considerável para melhorias em futuros LLMs.
Para obter uma compreensão abrangente das limitações dos LLMs na resolução de problemas científicos, os pesquisadores propõem uma nova abordagem de "autoaperfeiçoamento" para descobrir as inadequações nas respostas feitas pelos LLMs.
Este é o "Acordo de Avaliação" da seguinte forma.
Inclui especificamente: decomposição lógica e habilidades analíticas; identificação de hipóteses; percepção espacial; raciocínio causal; dedução de problemas; raciocínio abstrato; alfabetização científica; troca de código; raciocínio lógico; numeramento.
A equipe então empregou uma abordagem de autoavaliação orientada pelo LLM para classificar automaticamente as habilidades que faltavam nas soluções feitas pelo LLM de linha de base para cada configuração experimental.
Por fim, por meio da análise, constatou-se que:
(1) Embora o CoT melhore significativamente o poder de computação, é menos eficaz em outros aspectos;
(2) Dicas de uso de ferramentas externas podem prejudicar outras habilidades essenciais;
(3) O aprendizado de poucos tiros geralmente não melhora a resolução de problemas científicos.
Em suma, os resultados da pesquisa mostram que os atuais modelos de linguagem em larga escala ainda são fracos na capacidade de resolução de problemas e, com a ajuda de várias ferramentas, ainda existem limitações.
Referências: