Pedi ao GPT-3 e ao Llama que aprendessem um conhecimento simples: A é B, e então perguntei o que é B. Descobriu-se que a precisão da resposta da IA era zero.
Qual é o objetivo?
Recentemente, um novo conceito chamado "Reversal Curse" tornou-se um tema quente no círculo de IA, e todos os principais modelos de linguagem que agora são populares foram afetados por ele. Diante de problemas extremamente simples, sua precisão não só é próxima de zero, como também não há possibilidade de aumentar a precisão.
Além disso, os pesquisadores descobriram que esse grande bug não tem nada a ver com o tamanho do modelo ou com as perguntas feitas.
Dissemos que a IA se desenvolveu até o estágio de pré-treinamento de grandes modelos e finalmente parece ter dominado algum pensamento lógico, mas desta vez parece ter voltado à sua forma original.
Figura 1: Inconsistência de conhecimento no GPT-4. O GPT-4 forneceu corretamente o nome da mãe de Tom Cruise (à esquerda). Porém, quando o nome da mãe foi digitado para perguntar ao filho, não foi possível recuperar “Tom Cruise” (à direita). Novas pesquisas levantam a hipótese de que esse efeito de classificação se deve a uma reversão da maldição. Um modelo treinado em “A é B” não infere automaticamente “B é A”.
Se uma pessoa souber que "Olav Scholz foi o nono Chanceler da República Federal da Alemanha", poderá responder corretamente à pergunta "Quem é o nono Chanceler da Alemanha?" Esta é uma forma básica de generalização que parece normal.
No entanto, a investigação mostra que o modelo de linguagem autorregressiva que é actualmente popular no campo da IA não pode ser generalizado desta forma. Em particular, suponha que o conjunto de treinamento do modelo contenha frases como "Olaf Scholz foi o nono Chanceler do Alemão", onde o nome "Olaf Scholz" precede a descrição de "o nono Chanceler do Alemão". O grande modelo poderá então aprender a responder corretamente “Quem é Olaf Scholz?” (A resposta é: o nono chanceler da Alemanha). Mas não pode responder “Quem foi o nono chanceler da Alemanha?” e qualquer outra pergunta que descreva o que precede o nome.
Este é um exemplo do efeito de classificação que chamamos de “maldição de reversão”. Se o Modelo 1 for treinado com sentenças no formato “is” (com uma descrição após o nome), então o modelo não irá prever automaticamente “is” na direção oposta. Em particular, se um modelo de linguagem grande (LLM) for condicionado, então a probabilidade do modelo não será maior do que a linha de base aleatória.
Então, o raciocínio do modelo **grande não existe de fato? **Uma visão é que a maldição reversa demonstra uma falha básica de dedução lógica no processo de treinamento LLM. Se "A é B" (ou equivalentemente "A = B") for verdadeiro, então logicamente "B é A" segue a simetria da relação de identidade. Os gráficos do conhecimento tradicional respeitam esta simetria (Speer et al., 2017). Reversing the Curse mostra pouca generalização além dos dados de treinamento. Além disso, isso não é algo que o LLM possa explicar sem compreender as inferências lógicas. Um LLM como o GPT-4 pode muito bem inferir "B é A" se receber "A é B" em sua janela de contexto.
Embora seja útil relacionar a inversão da maldição com a dedução lógica, trata-se apenas de uma simplificação da situação geral. Atualmente não podemos testar diretamente se um modelo grande pode deduzir “B é A” após ser treinado em “A é B”. Grandes modelos são treinados para prever a próxima palavra que um ser humano escreveria, em vez do que realmente “deveria” ser. Portanto, mesmo que o LLM infira “B é A”, ele pode não “nos dizer” quando solicitado.
No entanto, reverter a maldição demonstra um fracasso da meta-aprendizagem. Frases na forma "é" e "é" geralmente aparecem juntas no conjunto de dados de pré-treinamento. Se o primeiro aparecer no conjunto de dados, é mais provável que o último apareça porque os humanos frequentemente alteram a ordem dos elementos em uma frase ou parágrafo. Portanto, um bom meta-aluno aumentará a probabilidade de " is " nos casos em que for treinado para " is ". Nesse sentido, o LLM autorregressivo não é um bom meta-aluno.
A reversão da maldição atraiu a atenção de muitos pesquisadores de IA. Algumas pessoas dizem que parece que a destruição da humanidade pela IA é apenas uma fantasia.
Outros dizem que isso significa que seus dados de treinamento e conteúdo contextual desempenham um papel crucial no processo de generalização do conhecimento.
Andrej Karpathy, um famoso cientista da OpenAI, disse que parece que o conhecimento aprendido pelo LLM está muito mais “disperso” do que você e eu imaginamos. Ainda não tenho uma boa intuição sobre isso. Eles aprendem coisas em uma “direção” específica da janela contextual daquele evento que pode não ser generalizada quando perguntamos em outras direções. Esta é uma estranha generalização parcial, e parece-me que “Reverse the Curse” é um caso especial.
A pesquisa que gerou polêmica veio da Universidade Vanderbilt, da Universidade de Nova York, da Universidade de Oxford e de outras instituições. O artigo "The Reversal Curse: LLMs treinados em" A é B "não conseguem aprender" B é A "":
Link do papel:
Link GitHub:
Se o nome e a descrição forem invertidos, o modelo grande ficará confuso
Este artigo demonstra que o LLM sofre com a maldição da reversão por meio de uma série de experimentos de ajuste fino em dados sintéticos. Conforme mostrado na Figura 2, o pesquisador primeiro ajustou o modelo com base no padrão de sentença (por exemplo, Daphne Barrington é a diretora de "Through Time"). Os resultados mostram que quando a forma de prompt ainda é o O padrão de frase é , o modelo Ele pode dar respostas precisas, mas quando solicitado por outro prompt, como "Quem dirigiu" Viagem no Tempo ", o modelo responde incorretamente.
Na verdade, conforme mostrado na Figura 4 (parte experimental), a probabilidade logarítmica do modelo dar o nome correto é semelhante à probabilidade logarítmica de dar um nome aleatório. Além disso, quando a ordem do teste muda de is < deion > para < deion > is < name >, a taxa de erro aumenta.
Para evitar reverter a maldição, os pesquisadores tentaram os seguintes métodos:
Experimente diferentes séries e diferentes tamanhos de modelos;
O conjunto de dados de ajuste fino contém o padrão de frase is e o padrão de frase is ;
Múltiplas interpretações para cada é, o que auxilia na generalização;
Alterar dados de para ?.
Após uma série de experimentos, eles fornecem evidências preliminares de que a reversão da maldição afeta a generalização em modelos de última geração (Figura 1 e Parte B). Eles testaram no GPT-4 com 1.000 perguntas como “Quem é a mãe de Tom Cruise?” e “Quem é o filho de Mary Lee Pfeiffer?” Acontece que na maioria dos casos, o modelo respondeu corretamente à primeira pergunta (Quem é o pai), mas não à segunda pergunta. Este artigo levanta a hipótese de que isso ocorre porque os dados de pré-treinamento contêm menos exemplos de pais classificados antes de celebridades (por exemplo, o filho de Mary Lee Pfeiffer é Tom Cruise).
Experiências e resultados
Este artigo tem como objetivo testar se um modelo de linguagem autorregressivo (LLM) que aprende “A é B” durante o treinamento pode generalizar para a forma oposta “B é A”.
Num primeiro experimento, criamos um conjunto de dados composto por documentos no formato é (ou vice-versa), onde o nome e a descrição são fictícios. Além disso, o estudo utilizou GPT-4 para gerar pares de nomes e descrições. Esses pares de dados são então atribuídos aleatoriamente a três subconjuntos: NameToDeion, DeionToName e ambos. Os dois primeiros subconjuntos são mostrados na Figura 3.
resultado. Na avaliação de correspondência exata, quando a ordem das questões do teste corresponde aos dados de treinamento, o GPT-3-175B atinge melhor precisão de correspondência exata. Os resultados são mostrados na Tabela 1.
Especificamente, para DeionToName (por exemplo, o compositor de Abyssal Melodies é Uriah Hawthorne), o modelo atinge 96,7% de precisão na recuperação do nome quando recebe um prompt que contém uma descrição (por exemplo, quem é o compositor de Abyssal Melodies). Para os fatos em NameToDeion, a precisão é inferior a 50,0%. Por outro lado, quando a ordem não corresponde aos dados de treinamento, o modelo não consegue generalizar e a precisão fica próxima de 0%. **
Este artigo também conduziu uma série de experimentos, incluindo GPT-3-350M (Apêndice A.2) e Llama-7B (Apêndice A.4).Os resultados mostram que os modelos sofreram com a maldição da reversão.
Na avaliação de probabilidade aumentada, não houve diferença detectável entre as probabilidades logarítmicas atribuídas ao nome correto versus o nome aleatório. A probabilidade logarítmica média do modelo GPT-3 é mostrada na Figura 4. Tanto os testes t como os testes de Kolmogorov-Smirnov não conseguiram detectar diferenças estatisticamente significativas.
Figura 4: Experimento 1, o modelo não consegue aumentar a probabilidade do nome correto quando a ordem é invertida. Este gráfico mostra o log de probabilidade médio de um nome correto (em relação a um nome aleatório) quando o modelo é consultado com uma descrição relevante.
Em seguida, o estudo conduziu um segundo experimento.
Neste experimento, os pesquisadores testaram modelos baseados em fatos sobre celebridades reais e seus pais, na forma “o pai de A é B” e “o filho de B é A”. O estudo coletou a lista das 1.000 celebridades mais populares do IMDB (2023) e usou GPT-4 (API OpenAI) para encontrar os pais das celebridades pelos seus nomes. O GPT-4 foi capaz de identificar os pais de celebridades em 79% das vezes.
Posteriormente, para cada par filho-pai, o estudo consulta a criança por pai. Aqui, a taxa de sucesso do GPT-4 é de apenas 33%. A Figura 1 ilustra esse fenômeno. Mostra que o GPT-4 pode identificar Mary Lee Pfeiffer como mãe de Tom Cruise, mas não pode identificar Tom Cruise como filho de Mary Lee Pfeiffer.
Além disso, o estudo avaliou o modelo da série Llama-1, que ainda não foi ajustado. Verificou-se que todos os modelos foram muito melhores na identificação dos pais do que dos filhos, ver Figura 5.
Figura 5: Efeitos de reversão na ordenação das perguntas dos pais e dos filhos no Experimento 2. A barra azul (esquerda) mostra a probabilidade de o modelo retornar o pai correto ao consultar os filhos de uma celebridade; a barra vermelha (direita) mostra a probabilidade de estar correto ao perguntar aos filhos dos pais. A precisão do modelo Llama-1 é a probabilidade de o modelo ser concluído corretamente. A precisão do GPT-3.5-turbo é a média de 10 amostras por par filho-pai, amostradas em temperatura = 1. Nota: GPT-4 é omitido da figura porque é usado para gerar uma lista de pares filhos-pais e, portanto, tem 100% de precisão na construção do par "pai". GPT-4 pontua 28% em "sub".
Perspectiva futura
Como explicar a maldição reversa no LLM? Isso pode precisar aguardar mais pesquisas no futuro. Por enquanto, os pesquisadores só podem oferecer um breve esboço de uma explicação. Quando o modelo é atualizado em "A é B", esta atualização de gradiente pode alterar ligeiramente a representação de A para incluir informações sobre B (por exemplo, em uma camada MLP intermediária). Para esta atualização de gradiente, também é razoável alterar a representação de B para incluir informações sobre A. No entanto, a atualização do gradiente é míope e depende do logaritmo de B dado A, em vez de necessariamente prever A no futuro com base em B.
Depois de “reverter a maldição”, os pesquisadores planejam explorar se o grande modelo pode reverter outros tipos de relacionamentos, como significado lógico, relacionamentos espaciais e relacionamentos de n lugares.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O maior bug em modelos grandes é que a taxa de respostas corretas é quase zero
Pedi ao GPT-3 e ao Llama que aprendessem um conhecimento simples: A é B, e então perguntei o que é B. Descobriu-se que a precisão da resposta da IA era zero.
Qual é o objetivo?
Recentemente, um novo conceito chamado "Reversal Curse" tornou-se um tema quente no círculo de IA, e todos os principais modelos de linguagem que agora são populares foram afetados por ele. Diante de problemas extremamente simples, sua precisão não só é próxima de zero, como também não há possibilidade de aumentar a precisão.
Além disso, os pesquisadores descobriram que esse grande bug não tem nada a ver com o tamanho do modelo ou com as perguntas feitas.
Dissemos que a IA se desenvolveu até o estágio de pré-treinamento de grandes modelos e finalmente parece ter dominado algum pensamento lógico, mas desta vez parece ter voltado à sua forma original.
Figura 1: Inconsistência de conhecimento no GPT-4. O GPT-4 forneceu corretamente o nome da mãe de Tom Cruise (à esquerda). Porém, quando o nome da mãe foi digitado para perguntar ao filho, não foi possível recuperar “Tom Cruise” (à direita). Novas pesquisas levantam a hipótese de que esse efeito de classificação se deve a uma reversão da maldição. Um modelo treinado em “A é B” não infere automaticamente “B é A”.
Se uma pessoa souber que "Olav Scholz foi o nono Chanceler da República Federal da Alemanha", poderá responder corretamente à pergunta "Quem é o nono Chanceler da Alemanha?" Esta é uma forma básica de generalização que parece normal.
No entanto, a investigação mostra que o modelo de linguagem autorregressiva que é actualmente popular no campo da IA não pode ser generalizado desta forma. Em particular, suponha que o conjunto de treinamento do modelo contenha frases como "Olaf Scholz foi o nono Chanceler do Alemão", onde o nome "Olaf Scholz" precede a descrição de "o nono Chanceler do Alemão". O grande modelo poderá então aprender a responder corretamente “Quem é Olaf Scholz?” (A resposta é: o nono chanceler da Alemanha). Mas não pode responder “Quem foi o nono chanceler da Alemanha?” e qualquer outra pergunta que descreva o que precede o nome.
Este é um exemplo do efeito de classificação que chamamos de “maldição de reversão”. Se o Modelo 1 for treinado com sentenças no formato “is” (com uma descrição após o nome), então o modelo não irá prever automaticamente “is” na direção oposta. Em particular, se um modelo de linguagem grande (LLM) for condicionado, então a probabilidade do modelo não será maior do que a linha de base aleatória.
Então, o raciocínio do modelo **grande não existe de fato? **Uma visão é que a maldição reversa demonstra uma falha básica de dedução lógica no processo de treinamento LLM. Se "A é B" (ou equivalentemente "A = B") for verdadeiro, então logicamente "B é A" segue a simetria da relação de identidade. Os gráficos do conhecimento tradicional respeitam esta simetria (Speer et al., 2017). Reversing the Curse mostra pouca generalização além dos dados de treinamento. Além disso, isso não é algo que o LLM possa explicar sem compreender as inferências lógicas. Um LLM como o GPT-4 pode muito bem inferir "B é A" se receber "A é B" em sua janela de contexto.
Embora seja útil relacionar a inversão da maldição com a dedução lógica, trata-se apenas de uma simplificação da situação geral. Atualmente não podemos testar diretamente se um modelo grande pode deduzir “B é A” após ser treinado em “A é B”. Grandes modelos são treinados para prever a próxima palavra que um ser humano escreveria, em vez do que realmente “deveria” ser. Portanto, mesmo que o LLM infira “B é A”, ele pode não “nos dizer” quando solicitado.
No entanto, reverter a maldição demonstra um fracasso da meta-aprendizagem. Frases na forma "é" e "é" geralmente aparecem juntas no conjunto de dados de pré-treinamento. Se o primeiro aparecer no conjunto de dados, é mais provável que o último apareça porque os humanos frequentemente alteram a ordem dos elementos em uma frase ou parágrafo. Portanto, um bom meta-aluno aumentará a probabilidade de " is " nos casos em que for treinado para " is ". Nesse sentido, o LLM autorregressivo não é um bom meta-aluno.
A reversão da maldição atraiu a atenção de muitos pesquisadores de IA. Algumas pessoas dizem que parece que a destruição da humanidade pela IA é apenas uma fantasia.
Outros dizem que isso significa que seus dados de treinamento e conteúdo contextual desempenham um papel crucial no processo de generalização do conhecimento.
Andrej Karpathy, um famoso cientista da OpenAI, disse que parece que o conhecimento aprendido pelo LLM está muito mais “disperso” do que você e eu imaginamos. Ainda não tenho uma boa intuição sobre isso. Eles aprendem coisas em uma “direção” específica da janela contextual daquele evento que pode não ser generalizada quando perguntamos em outras direções. Esta é uma estranha generalização parcial, e parece-me que “Reverse the Curse” é um caso especial.
A pesquisa que gerou polêmica veio da Universidade Vanderbilt, da Universidade de Nova York, da Universidade de Oxford e de outras instituições. O artigo "The Reversal Curse: LLMs treinados em" A é B "não conseguem aprender" B é A "":
Link do papel:
Link GitHub:
Se o nome e a descrição forem invertidos, o modelo grande ficará confuso
Este artigo demonstra que o LLM sofre com a maldição da reversão por meio de uma série de experimentos de ajuste fino em dados sintéticos. Conforme mostrado na Figura 2, o pesquisador primeiro ajustou o modelo com base no padrão de sentença (por exemplo, Daphne Barrington é a diretora de "Through Time"). Os resultados mostram que quando a forma de prompt ainda é o O padrão de frase é , o modelo Ele pode dar respostas precisas, mas quando solicitado por outro prompt, como "Quem dirigiu" Viagem no Tempo ", o modelo responde incorretamente.
Na verdade, conforme mostrado na Figura 4 (parte experimental), a probabilidade logarítmica do modelo dar o nome correto é semelhante à probabilidade logarítmica de dar um nome aleatório. Além disso, quando a ordem do teste muda de is < deion > para < deion > is < name >, a taxa de erro aumenta.
Para evitar reverter a maldição, os pesquisadores tentaram os seguintes métodos:
Após uma série de experimentos, eles fornecem evidências preliminares de que a reversão da maldição afeta a generalização em modelos de última geração (Figura 1 e Parte B). Eles testaram no GPT-4 com 1.000 perguntas como “Quem é a mãe de Tom Cruise?” e “Quem é o filho de Mary Lee Pfeiffer?” Acontece que na maioria dos casos, o modelo respondeu corretamente à primeira pergunta (Quem é o pai), mas não à segunda pergunta. Este artigo levanta a hipótese de que isso ocorre porque os dados de pré-treinamento contêm menos exemplos de pais classificados antes de celebridades (por exemplo, o filho de Mary Lee Pfeiffer é Tom Cruise).
Experiências e resultados
Este artigo tem como objetivo testar se um modelo de linguagem autorregressivo (LLM) que aprende “A é B” durante o treinamento pode generalizar para a forma oposta “B é A”.
Num primeiro experimento, criamos um conjunto de dados composto por documentos no formato é (ou vice-versa), onde o nome e a descrição são fictícios. Além disso, o estudo utilizou GPT-4 para gerar pares de nomes e descrições. Esses pares de dados são então atribuídos aleatoriamente a três subconjuntos: NameToDeion, DeionToName e ambos. Os dois primeiros subconjuntos são mostrados na Figura 3.
resultado. Na avaliação de correspondência exata, quando a ordem das questões do teste corresponde aos dados de treinamento, o GPT-3-175B atinge melhor precisão de correspondência exata. Os resultados são mostrados na Tabela 1.
Especificamente, para DeionToName (por exemplo, o compositor de Abyssal Melodies é Uriah Hawthorne), o modelo atinge 96,7% de precisão na recuperação do nome quando recebe um prompt que contém uma descrição (por exemplo, quem é o compositor de Abyssal Melodies). Para os fatos em NameToDeion, a precisão é inferior a 50,0%. Por outro lado, quando a ordem não corresponde aos dados de treinamento, o modelo não consegue generalizar e a precisão fica próxima de 0%. **
Este artigo também conduziu uma série de experimentos, incluindo GPT-3-350M (Apêndice A.2) e Llama-7B (Apêndice A.4).Os resultados mostram que os modelos sofreram com a maldição da reversão.
Na avaliação de probabilidade aumentada, não houve diferença detectável entre as probabilidades logarítmicas atribuídas ao nome correto versus o nome aleatório. A probabilidade logarítmica média do modelo GPT-3 é mostrada na Figura 4. Tanto os testes t como os testes de Kolmogorov-Smirnov não conseguiram detectar diferenças estatisticamente significativas.
Figura 4: Experimento 1, o modelo não consegue aumentar a probabilidade do nome correto quando a ordem é invertida. Este gráfico mostra o log de probabilidade médio de um nome correto (em relação a um nome aleatório) quando o modelo é consultado com uma descrição relevante.
Em seguida, o estudo conduziu um segundo experimento.
Neste experimento, os pesquisadores testaram modelos baseados em fatos sobre celebridades reais e seus pais, na forma “o pai de A é B” e “o filho de B é A”. O estudo coletou a lista das 1.000 celebridades mais populares do IMDB (2023) e usou GPT-4 (API OpenAI) para encontrar os pais das celebridades pelos seus nomes. O GPT-4 foi capaz de identificar os pais de celebridades em 79% das vezes.
Posteriormente, para cada par filho-pai, o estudo consulta a criança por pai. Aqui, a taxa de sucesso do GPT-4 é de apenas 33%. A Figura 1 ilustra esse fenômeno. Mostra que o GPT-4 pode identificar Mary Lee Pfeiffer como mãe de Tom Cruise, mas não pode identificar Tom Cruise como filho de Mary Lee Pfeiffer.
Além disso, o estudo avaliou o modelo da série Llama-1, que ainda não foi ajustado. Verificou-se que todos os modelos foram muito melhores na identificação dos pais do que dos filhos, ver Figura 5.
Figura 5: Efeitos de reversão na ordenação das perguntas dos pais e dos filhos no Experimento 2. A barra azul (esquerda) mostra a probabilidade de o modelo retornar o pai correto ao consultar os filhos de uma celebridade; a barra vermelha (direita) mostra a probabilidade de estar correto ao perguntar aos filhos dos pais. A precisão do modelo Llama-1 é a probabilidade de o modelo ser concluído corretamente. A precisão do GPT-3.5-turbo é a média de 10 amostras por par filho-pai, amostradas em temperatura = 1. Nota: GPT-4 é omitido da figura porque é usado para gerar uma lista de pares filhos-pais e, portanto, tem 100% de precisão na construção do par "pai". GPT-4 pontua 28% em "sub".
Perspectiva futura
Como explicar a maldição reversa no LLM? Isso pode precisar aguardar mais pesquisas no futuro. Por enquanto, os pesquisadores só podem oferecer um breve esboço de uma explicação. Quando o modelo é atualizado em "A é B", esta atualização de gradiente pode alterar ligeiramente a representação de A para incluir informações sobre B (por exemplo, em uma camada MLP intermediária). Para esta atualização de gradiente, também é razoável alterar a representação de B para incluir informações sobre A. No entanto, a atualização do gradiente é míope e depende do logaritmo de B dado A, em vez de necessariamente prever A no futuro com base em B.
Depois de “reverter a maldição”, os pesquisadores planejam explorar se o grande modelo pode reverter outros tipos de relacionamentos, como significado lógico, relacionamentos espaciais e relacionamentos de n lugares.