O modelo de linguagem tem falhas graves e a dedução do conhecimento acaba sendo um problema antigo

2023-10-02 05:11:12

Descoberta surpreendente: modelos grandes apresentam falhas graves na dedução de conhecimento.

A aplicação flexível do conhecimento é a chave para a sabedoria. O cérebro humano pode processar conhecimento rapidamente, como responder rapidamente "Quantas palavras existem em "Pensamentos de Noite Silenciosa"". Então, operações semelhantes podem ser realizadas em modelos grandes? Sabe-se que grandes modelos podem primeiro escrever "Pensamentos da Noite Silenciosa" silenciosamente através da Cadeia de Pensamentos (CoT) e depois responder perguntas com base no conteúdo escrito, mas isso tornará o texto gerado extenso. Em contraste, os humanos podem completar deduções simples de conhecimento em seus cérebros sem escrever as etapas intermediárias. Então, um modelo de linguagem muito grande pode gerar respostas diretamente em seu cérebro artificial sem ter que anotar primeiro os pontos de conhecimento?

**A resposta acabou sendo não! A Figura 1/2/3 mostra muitos contra-exemplos no GPT4. Mesmo a classificação mais básica (como determinar a paridade do aniversário de uma celebridade) e a comparação (como comparar os aniversários de dois presidentes) precisam passar pela Cadeia de Pensamento. Pior ainda, os grandes modelos são quase completamente incapazes de extrair conhecimento do conjunto de treinamento de forma reversa. **

Figura 1: GPT4 comete erros na classificação/comparação de conhecimento, mas a resposta correta pode ser obtida através da cadeia de pensamento

Figura 2: Exemplo de erro de pesquisa reversa de conhecimento GPT4

*Figura 3: Embora o GPT4 possa responder corretamente “Quando é o aniversário de alguém” e “Um determinado número é par?”, ao combinar os dois, a taxa de precisão é de apenas 50% sem Cadeia de Pensamento (CoT). Ao comparar os aniversários de celebridades de 1900 a 1910, o desempenho também se aproxima de uma adivinhação cega. *

A pesquisa mais recente "Física do Modelo de Linguagem Parte 3.2: Manipulação do Conhecimento" de Zhu Zeyuan (MetaAI) e Li Yuanzhi (MBZUAI) concentra-se nas questões acima.

Endereço do papel:

Deixe-me fazer uma pergunta primeiro: para problemas como as Figuras 1/2/3, é porque o GPT4 não tem memória precisa o suficiente para os aniversários das pessoas (a taxa de compressão não é suficiente e a perda de treinamento não é baixa o suficiente), ou não? não consegue aprofundar a sua compreensão da paridade através do ajuste fino? É possível ajustar o GPT4 para que possa combinar o conhecimento existente dentro do modelo para gerar novos conhecimentos, como “paridade de aniversário”, respondendo assim diretamente a questões relacionadas sem depender do CoT? Como não conhecemos o conjunto de dados de treinamento do GPT4, não podemos ajustá-lo. Portanto, o autor propõe o uso de conjuntos de treinamento controláveis para estudar ainda mais a capacidade de “dedução de conhecimento” dos modelos de linguagem.

Figura 4: Para modelos pré-treinados como GPT4, devido à natureza incontrolável dos dados da Internet, é difícil determinar se ocorrem situações B/C/D

Em "Language Model Physics Part 3.1: Knowledge Storage and Retrieval", o autor criou um conjunto de dados contendo 100 mil biografias. Cada biografia inclui o nome da pessoa e seis atributos: data de nascimento, local de nascimento, curso universitário, nome da universidade, local de trabalho e unidade de trabalho. por exemplo:

「Anya Briar Forger é originária de Princeton, NJ. Dedicou seus estudos às Comunicações. Ela ganhou experiência de trabalho em Menlo Park, CA. Ela desenvolveu sua carreira na Meta Platforms. Ela veio a este mundo em 2 de outubro de 1996. Ela fez cursos avançados no MIT.」

Os autores garantiram diversidade de entradas biográficas para ajudar o modelo a ter melhor acesso ao conhecimento. Após o pré-treinamento, o modelo pode responder com precisão a perguntas de extração de conhecimento, como "Quando é o aniversário de Anya", por meio de ajuste fino (a taxa de precisão é próxima de 100%)

Em seguida, o autor continuou a ajustar, tentando fazer com que o modelo aprendesse problemas de dedução de conhecimento, como classificação/comparação/adição e subtração de conhecimento. O artigo constatou que os modelos de linguagem natural têm capacidades muito limitadas na dedução de conhecimento, e é difícil gerar novos conhecimentos através do ajuste fino, mesmo que sejam apenas simples transformações/combinações do conhecimento já dominado pelo modelo. **

Figura 5: Se o CoT não for usado durante o ajuste fino, permitir que o modelo classifique/compare/subtraia conhecimento exigirá um grande número de amostras ou a precisão será extremamente baixa - 100 majors foram usados no experimento

Conforme mostrado na Figura 5, o autor descobriu que, embora o modelo possa responder com precisão ao aniversário de todos após o pré-treinamento (a taxa de precisão é próxima de 100%), ele precisa ser ajustado para responder "O mês de nascimento de xxx é um número par?" e atingir uma taxa de precisão de 75% - não se esqueça que a adivinhação cega tem uma taxa de precisão de 50% - requer pelo menos 10.000 amostras de ajuste fino. Em comparação, se o modelo puder completar corretamente a combinação de conhecimento de "aniversário" e "paridade", então, de acordo com a teoria tradicional de aprendizado de máquina, o modelo só precisa aprender a classificar 12 meses, e geralmente cerca de 100 amostras são suficientes!

Da mesma forma, após o pré-treinamento, o modelo pode responder com precisão à especialização de cada pessoa (um total de 100 especializações diferentes), mas mesmo que 50.000 amostras de ajuste fino sejam usadas para comparar "O que é melhor, a especialização de Anya ou a especialização de Sabrina", a precisão a taxa é de apenas 53,9%, quase um palpite cego.

No entanto, quando usamos o ajuste fino do CoT para permitir que o modelo aprenda frases como "O mês de nascimento de Anya é outubro, então é um número par", a precisão do modelo em julgar a paridade do mês de nascimento no conjunto de teste é bastante melhorada (ver "uso de teste" na coluna da Figura 5 CoT").

O autor também tentou misturar respostas CoT e não CoT nos dados de treinamento de ajuste fino e descobriu que a precisão do modelo quando não usando CoT no conjunto de teste ainda era muito baixa (veja a coluna "teste sem CoT" em Figura 5). Isso mostra que, mesmo que sejam adicionados dados suficientes de ajuste fino do CoT, o modelo ainda não consegue aprender a "pensar dentro da cabeça" e relatar diretamente a resposta.

Estes resultados mostram que é extremamente difícil para os modelos de linguagem realizar operações simples de conhecimento! O modelo deve primeiro anotar os pontos de conhecimento e depois realizar os cálculos. Ele não pode ser operado diretamente no cérebro como um ser humano. Mesmo após um ajuste fino suficiente, não ajudará. **

Desafios da busca reversa de conhecimento

O artigo também descobriu que os modelos de linguagem natural não podem pesquisar inversamente o conhecimento aprendido. Embora possa responder a todas as informações sobre uma pessoa, não pode determinar o nome da pessoa com base nessas informações.

Tal como acontece com a classificação/comparação de conhecimento, o autor conduziu experimentos no GPT3.5/4 e descobriu que eles tiveram um desempenho fraco na extração reversa de conhecimento (ver Figura 6). No entanto, como não podemos determinar o conjunto de treinamento do GPT3.5/4, isso não prova que todos os modelos de linguagem tenham esse problema.

*Figura 6: Comparação da busca de conhecimento direta/reversa do GPT3.5/4. O trabalho de “reversão da maldição” (arxiv 2309.12288) que relatamos há alguns dias também observou isso em grandes modelos existentes. *

O autor usou o conjunto de dados biográficos mencionado acima para conduzir um experimento controlado mais aprofundado sobre as capacidades de busca reversa de conhecimento do modelo. Como os nomes de todas as biografias estão no início do parágrafo, o autor elaborou 10 problemas de extração reversa de informações, tais como:

“Por favor, diga-me o nome de uma pessoa nascida em 2 de outubro de 1996 em Princeton, NJ?”

"Por favor, diga-me o nome de uma pessoa que estudou Comunicações no MIT, nasceu em 2 de outubro de 1996 em Princeton, NJ, e trabalha na Meta Platforms em Menlo Park, CA?"

Figura 7: Experimento controlado com conjunto de dados de biografias de celebridades

O autor verificou que embora o modelo alcance compressão de conhecimento sem perdas e aprimoramento de conhecimento suficiente, e possa extrair esse conhecimento quase 100% corretamente, após o ajuste fino, o modelo ainda é incapaz de realizar a busca reversa de conhecimento, e a precisão é quase zero ( veja a Figura 7). No entanto, uma vez que o conhecimento reverso aparece diretamente no conjunto de pré-treinamento, a precisão da busca reversa aumenta imediatamente.

Resumindo, somente quando o conhecimento inverso é incluído diretamente nos dados de pré-treinamento, o modelo pode responder à questão inversa por meio de ajuste fino - mas isso é na verdade trapaça, porque se o conhecimento foi revertido, não é mais "Conhecimento reverso Procurar". Se o conjunto de pré-treinamento contiver apenas conhecimento direto, o modelo não poderá dominar a capacidade de responder perguntas ao contrário por meio do ajuste fino. Portanto, atualmente parece impossível utilizar modelos de linguagem para indexação de conhecimento (banco de dados de conhecimento). **

Além disso, algumas pessoas podem pensar que o fracasso da "busca reversa de conhecimento" mencionada acima pode ser devido à natureza unidirecional dos modelos de linguagem autorregressivos, como o GPT. Mas, na verdade, modelos de linguagem bidirecionais como o BERT apresentam pior desempenho na extração de conhecimento e até falham na extração direta. Os leitores interessados podem consultar o artigo para obter detalhes.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
1/3
1Gate Launchpad List IKA
51k Popularidade
2ETH Back to $3,800
8k Popularidade
3Tariff Deal New Update
7k Popularidade
4Stablecoin Regulation
658 Popularidade
5Gate ETH 10th Anniversary Celebration
24k Popularidade

Pino