À medida que o tamanho do modelo aumenta, as pessoas começam a explorar como modelos grandes podem dominar uma grande quantidade de conhecimento. Uma visão é que isso se deve à “compressão sem perdas”, ou seja, o modelo passa por um treinamento extensivo e memoriza mais conteúdo para melhorar a precisão da previsão. Mas será que a “compressão sem perdas” pode realmente permitir que grandes modelos compreendam esse conhecimento? A pesquisa mais recente "Language Model Physics Part 3.1: Knowledge Storage and Retrieval" de Zhu Zeyuan (MetaAI) e Li Yuanzhi (MBZUAI) explora esta questão em profundidade.
Endereço do papel:
Em relação ao ser humano, existe um ditado que diz que “leia um livro cem vezes e seu significado aparecerá por si mesmo”. Embora esta frase não se aplique a todos os conhecimentos, para conhecimentos simples, desde que nos lembremos dos livros relevantes, podemos facilmente responder a questões relacionadas. Por exemplo, desde que nos lembremos do antigo poema "Pensamentos de Noite Silenciosa", podemos facilmente responder "A que se compara o luar no poema?"; desde que nos lembremos do parágrafo sobre "Chu Shi Biao/Fundo Criativo" na Enciclopédia Baidu, podemos facilmente responder "Chu Shi Biao" Quando foi a criação de?". Então, os modelos maiores podem fazer o mesmo?
Figura 1: Alguns exemplos de extração de conhecimento por GPT-4 (a imagem da esquerda é ChatGPT, a imagem da direita é API)
Embora o GPT-4 possa compreender e repetir parágrafos relacionados à pergunta, por que ele não consegue responder a perguntas simples como os humanos? Será porque o modelo não é grande o suficiente, a memória é insuficiente ou o ajuste fino após o treinamento não é suficiente? nenhum! O artigo salienta que mesmo que um modelo de linguagem natural seja suficientemente grande, treinado durante tempo suficiente e suficientemente afinado, poderá ainda assim não ser capaz de responder a questões que os humanos consideram simples. A razão subjacente para isso tem a ver com a forma como o conhecimento é apresentado nos dados pré-treinamento. O mesmo conhecimento precisa aparecer várias vezes no conjunto de dados pré-treinamento e tem "diversidade" suficiente para ser mais fácil de extrair após o ajuste fino.
Para confirmar isso, os dois autores criaram um conjunto de dados contendo 100 mil biografias. Cada personagem tem uma entrada de biografia contendo o nome da pessoa e seis atributos fixos: data de nascimento, local de nascimento, curso universitário, nome da universidade e local de trabalho. ,empregador. Eles projetaram dois conjuntos de dados, BioS e BioR. Cada frase do BioS foi selecionada a partir de 50 modelos fixos, e o BioR foi reescrito com LLaMA-30B, que é mais realista e diversificado. Os resultados dos dois conjuntos de dados são consistentes. Tomando o BioS como exemplo, um exemplo de entrada é mostrado abaixo:
Anya Briar Forger nasceu em 2 de outubro de 1996. Ela passou seus primeiros anos em Princeton, NJ. Ela recebeu orientação e orientação de membros do corpo docente do MIT. Ela completou sua educação com foco em Comunicações. Ela teve uma função profissional na Meta Platforms. Ela trabalhava em Menlo Park, CA.
Figura 2
Mesmo que um modelo de linguagem natural seja perfeitamente pré-treinado (pré-treinado) em 100 mil autobiografias pessoais, ele não será capaz de responder com precisão à pergunta "Qual escola Anya frequentou na graduação" por meio do ajuste fino de controle de qualidade (ajuste fino). Conforme mostrado na Figura 2, mesmo que 50 mil pessoas sejam usadas como dados de treinamento de ajuste fino de controle de qualidade e vários métodos de ajuste fino sejam tentados, incluindo LoRA, a precisão do modelo nas 50 mil pessoas restantes é de apenas 10%. Embora um modelo 682M (7.000 vezes maior que o número de pessoas) tenha sido usado e treinado 1.350 vezes, e o autor até tenha adicionado dados de pré-treinamento de PNL padrão, como o WikiBook, a taxa de precisão não melhorou. Percebe-se que “com muita força, milagres” não aconteceram.
Portanto, grandes modelos não necessariamente capturam ou extraem conhecimento de “compressão sem perdas”. Então, como o GPT-4 domina o conhecimento? Para estudar esse problema, os dois autores fizeram alterações no conjunto de pré-treinamento - os autores o chamaram de aprimoramento do conhecimento:
Diversidade - multiM: Crie M entradas de biografia para cada pessoa, usando diferentes linguagens narrativas, mas mantendo as mesmas informações (há um total de 100 métodos narrativos para cada frase, e cada frase de cada biografia seleciona um deles)
Arranjo aleatório - permutar: Organize aleatoriamente as frases biográficas
Nome completo - nome completo: Substitua todos os pronomes, sobrenomes e nomes na biografia pelo nome completo
Os autores chamaram o conjunto de dados original de bioS único e experimentaram 15 combinações de aprimoramentos de conhecimento. Por exemplo, bioS multi5+permute significa que cada pessoa tem 5 biografias e a ordem das palavras é interrompida. Aqui está um exemplo de bioS multi5+permute:
Anya Briar Forger é originária de Princeton, NJ. Dedicou seus estudos às Comunicações. Ela ganhou experiência de trabalho em Menlo Park, CA. Ela desenvolveu sua carreira na Meta Platforms. Ela veio a este mundo em 2 de outubro de 1996. Ela fez cursos avançados no MIT.
Tanto para humanos quanto para modelos grandes, lembre-se de que bioS single e bioS multi5+permute são quase igualmente difíceis (eles têm a mesma quantidade de informações e cada frase é selecionada entre 50 modelos). Então, se o pré-treinamento for realizado neste novo conjunto de dados aprimorados pelo conhecimento e então o controle de qualidade for ajustado, haverá algum novo desempenho?
imagem 3
A Figura 3 mostra que a taxa de precisão de controle de qualidade do modelo pré-treinado único bioS é de apenas 9,7%, enquanto a taxa de precisão do modelo pré-treinado bioS multi5+permute é tão alta quanto 96,6%. Esta melhoria significativa não tem nada a ver com o ajuste fino do modelo, tamanho ou tempo de treinamento, mas com a forma como o conhecimento é apresentado no pré-treinamento, ou seja, como o conhecimento é “recitado” pelo modelo grande.
O estudo também descobriu que, ao dividir as biografias em celebridades e grupos minoritários, desde que a biografia de celebridades tenha aprimoramento de conhecimento, mesmo que o grupo minoritário não o tenha, a precisão da extração de conhecimento do modelo para o grupo minoritário será grandemente melhorada - é claro , o melhor O efeito ainda requer aprimoramento do conhecimento de todos os dados.
Figura 4: Simplesmente aumentando a diversidade de dados de treinamento para celebridades, a precisão da extração de conhecimento para grupos minoritários aumenta
Então, por que a capacidade de resposta a perguntas do modelo varia muito depois de recitar dados diferentes? Por que a recitação repetida de biografias de celebridades pode aumentar a capacidade de extração de conhecimento de grupos minoritários? A razão é que os modelos adotam diferentes métodos de memória.
O autor explora profundamente o princípio do conhecimento da memória do modelo por meio de duas sondagens lineares. Vejamos um método chamado sondagem P.
Na sonda P, inserimos entradas biográficas no modelo pré-treinado e treinamos um classificador linear para prever seis atributos alvo (como universidade, especialização, etc.). Queríamos ver se o modelo poderia extrair essas informações antes dos atributos. Se o classificador mostrar uma alta precisão para “unidade de trabalho” imediatamente após o nome da pessoa, significa que o modelo aprendeu diretamente “o empregador de Anya é Meta”. Se a alta precisão for alcançada apenas no final da biografia, pode ser que o modelo utilize um método de memória falho, como "o aniversário de alguém é 2 de outubro de 1996, a universidade é MIT, então o empregador é Meta".
O projeto experimental para a sonda P é o seguinte. Encontre as posições em cada biografia onde os 6 atributos aparecem pela primeira vez e, em seguida, treine um classificador linear para prever cada atributo alvo na posição imediatamente anterior a essas posições. Isso resultou em 36 tarefas de classificação.
*Figura 5: Os resultados do teste P probe mostram que o aprimoramento do conhecimento do conjunto de dados pré-treinamento faz com que o conhecimento seja armazenado em locais anteriores, e alguns até são armazenados diretamente nos nomes das pessoas. A capacidade do modelo de responder perguntas por meio de ajuste fino está relacionada ao fato de as informações serem armazenadas diretamente no nome da pessoa durante o pré-treinamento (comparar a Figura 3 e a Figura 5). *
Os resultados do teste P-probe mostram que o modelo de linguagem natural pode lembrar informações por meio de nomes de pessoas para obter compressão durante o pré-treinamento, e também pode usar outras informações (como "A unidade de trabalho de uma pessoa que estudou no MIT e cujo aniversário é 2 de outubro de 1996 é ...")memória. Embora o segundo método de memória não seja "natural" para os humanos, as taxas de compressão dos dois métodos são as mesmas para o modelo. Se o modelo usar o segundo método para lembrar informações, ele não será capaz de responder perguntas por meio de ajuste fino após o treinamento. Através do aprimoramento do conhecimento, o modelo pré-treinado tenderá gradativamente a aprender a usar o primeiro método de memória.
Pode-se argumentar que a falha na “extração de conhecimento” acima pode ser devida à natureza unidirecional de modelos de linguagem autorregressivos, como o GPT. Na verdade, modelos de linguagem bidirecionais como o BERT são ainda piores na extração de conhecimento: eles só podem armazenar conhecimento multifrase, como "Meta Platform", mas não podem extraí-lo. Os leitores interessados podem consultar o Capítulo 6 do artigo.
Em geral, se o modelo de linguagem pode responder à questão da “extração de conhecimento” depende não apenas da “compressão sem perdas”, mas também de “como compactar no modelo”. O artigo enfatiza que é necessário aprimorar o conhecimento de dados importantes, mas raros, durante o processo de pré-treinamento (como usar ChatGPT para reescritas múltiplas). Sem esta etapa, não importa o quanto você trabalhe no ajuste fino, embora o modelo pré-treinado tenha compactado os dados de treinamento sem perdas, ele ainda poderá ser incapaz de extrair esse conhecimento!
Conclusão
Como entender como funcionam os modelos de linguagem natural? A maioria dos pesquisadores especula sobre suas capacidades conversando com modelos como o GPT-4. No entanto, o autor da série de artigos "Language Model Physics" propôs um método mais preciso para explorar o mecanismo interno do Transformer e explicar sua capacidade de lidar com tarefas de IA por meio de dados de treinamento cuidadosamente projetados e experimentos controlados.
Na "Parte 3.1: Armazenamento e extração de conhecimento", o autor testou com precisão a resposta do modelo a diferentes dados e encontrou a relação precisa entre o conhecimento e a capacidade de aprendizagem do modelo e os dados de treinamento.
Eles também lançaram a “Parte 3.2: Operação do Conhecimento” para estudar mais a fundo como o modelo opera o conhecimento em situações específicas. Por exemplo, se o modelo grande se lembra de "Pensamentos de Noite Silenciosa", pode ser ajustado para inferir que a última frase de "Pensamentos de Noite Silenciosa" é "Incline a cabeça e sinta falta de sua cidade natal"? Em breve traremos relatórios de acompanhamento.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Recitar não significa compreender, analisar em profundidade o armazenamento e extração de conhecimento por trás de grandes modelos
Fonte: Coração da Máquina
À medida que o tamanho do modelo aumenta, as pessoas começam a explorar como modelos grandes podem dominar uma grande quantidade de conhecimento. Uma visão é que isso se deve à “compressão sem perdas”, ou seja, o modelo passa por um treinamento extensivo e memoriza mais conteúdo para melhorar a precisão da previsão. Mas será que a “compressão sem perdas” pode realmente permitir que grandes modelos compreendam esse conhecimento? A pesquisa mais recente "Language Model Physics Part 3.1: Knowledge Storage and Retrieval" de Zhu Zeyuan (MetaAI) e Li Yuanzhi (MBZUAI) explora esta questão em profundidade.
Em relação ao ser humano, existe um ditado que diz que “leia um livro cem vezes e seu significado aparecerá por si mesmo”. Embora esta frase não se aplique a todos os conhecimentos, para conhecimentos simples, desde que nos lembremos dos livros relevantes, podemos facilmente responder a questões relacionadas. Por exemplo, desde que nos lembremos do antigo poema "Pensamentos de Noite Silenciosa", podemos facilmente responder "A que se compara o luar no poema?"; desde que nos lembremos do parágrafo sobre "Chu Shi Biao/Fundo Criativo" na Enciclopédia Baidu, podemos facilmente responder "Chu Shi Biao" Quando foi a criação de?". Então, os modelos maiores podem fazer o mesmo?
Embora o GPT-4 possa compreender e repetir parágrafos relacionados à pergunta, por que ele não consegue responder a perguntas simples como os humanos? Será porque o modelo não é grande o suficiente, a memória é insuficiente ou o ajuste fino após o treinamento não é suficiente? nenhum! O artigo salienta que mesmo que um modelo de linguagem natural seja suficientemente grande, treinado durante tempo suficiente e suficientemente afinado, poderá ainda assim não ser capaz de responder a questões que os humanos consideram simples. A razão subjacente para isso tem a ver com a forma como o conhecimento é apresentado nos dados pré-treinamento. O mesmo conhecimento precisa aparecer várias vezes no conjunto de dados pré-treinamento e tem "diversidade" suficiente para ser mais fácil de extrair após o ajuste fino.
Para confirmar isso, os dois autores criaram um conjunto de dados contendo 100 mil biografias. Cada personagem tem uma entrada de biografia contendo o nome da pessoa e seis atributos fixos: data de nascimento, local de nascimento, curso universitário, nome da universidade e local de trabalho. ,empregador. Eles projetaram dois conjuntos de dados, BioS e BioR. Cada frase do BioS foi selecionada a partir de 50 modelos fixos, e o BioR foi reescrito com LLaMA-30B, que é mais realista e diversificado. Os resultados dos dois conjuntos de dados são consistentes. Tomando o BioS como exemplo, um exemplo de entrada é mostrado abaixo:
Mesmo que um modelo de linguagem natural seja perfeitamente pré-treinado (pré-treinado) em 100 mil autobiografias pessoais, ele não será capaz de responder com precisão à pergunta "Qual escola Anya frequentou na graduação" por meio do ajuste fino de controle de qualidade (ajuste fino). Conforme mostrado na Figura 2, mesmo que 50 mil pessoas sejam usadas como dados de treinamento de ajuste fino de controle de qualidade e vários métodos de ajuste fino sejam tentados, incluindo LoRA, a precisão do modelo nas 50 mil pessoas restantes é de apenas 10%. Embora um modelo 682M (7.000 vezes maior que o número de pessoas) tenha sido usado e treinado 1.350 vezes, e o autor até tenha adicionado dados de pré-treinamento de PNL padrão, como o WikiBook, a taxa de precisão não melhorou. Percebe-se que “com muita força, milagres” não aconteceram.
Portanto, grandes modelos não necessariamente capturam ou extraem conhecimento de “compressão sem perdas”. Então, como o GPT-4 domina o conhecimento? Para estudar esse problema, os dois autores fizeram alterações no conjunto de pré-treinamento - os autores o chamaram de aprimoramento do conhecimento:
Diversidade - multiM: Crie M entradas de biografia para cada pessoa, usando diferentes linguagens narrativas, mas mantendo as mesmas informações (há um total de 100 métodos narrativos para cada frase, e cada frase de cada biografia seleciona um deles)
Arranjo aleatório - permutar: Organize aleatoriamente as frases biográficas
Nome completo - nome completo: Substitua todos os pronomes, sobrenomes e nomes na biografia pelo nome completo
Os autores chamaram o conjunto de dados original de bioS único e experimentaram 15 combinações de aprimoramentos de conhecimento. Por exemplo, bioS multi5+permute significa que cada pessoa tem 5 biografias e a ordem das palavras é interrompida. Aqui está um exemplo de bioS multi5+permute:
Tanto para humanos quanto para modelos grandes, lembre-se de que bioS single e bioS multi5+permute são quase igualmente difíceis (eles têm a mesma quantidade de informações e cada frase é selecionada entre 50 modelos). Então, se o pré-treinamento for realizado neste novo conjunto de dados aprimorados pelo conhecimento e então o controle de qualidade for ajustado, haverá algum novo desempenho?
A Figura 3 mostra que a taxa de precisão de controle de qualidade do modelo pré-treinado único bioS é de apenas 9,7%, enquanto a taxa de precisão do modelo pré-treinado bioS multi5+permute é tão alta quanto 96,6%. Esta melhoria significativa não tem nada a ver com o ajuste fino do modelo, tamanho ou tempo de treinamento, mas com a forma como o conhecimento é apresentado no pré-treinamento, ou seja, como o conhecimento é “recitado” pelo modelo grande.
O estudo também descobriu que, ao dividir as biografias em celebridades e grupos minoritários, desde que a biografia de celebridades tenha aprimoramento de conhecimento, mesmo que o grupo minoritário não o tenha, a precisão da extração de conhecimento do modelo para o grupo minoritário será grandemente melhorada - é claro , o melhor O efeito ainda requer aprimoramento do conhecimento de todos os dados.
Então, por que a capacidade de resposta a perguntas do modelo varia muito depois de recitar dados diferentes? Por que a recitação repetida de biografias de celebridades pode aumentar a capacidade de extração de conhecimento de grupos minoritários? A razão é que os modelos adotam diferentes métodos de memória.
O autor explora profundamente o princípio do conhecimento da memória do modelo por meio de duas sondagens lineares. Vejamos um método chamado sondagem P.
Na sonda P, inserimos entradas biográficas no modelo pré-treinado e treinamos um classificador linear para prever seis atributos alvo (como universidade, especialização, etc.). Queríamos ver se o modelo poderia extrair essas informações antes dos atributos. Se o classificador mostrar uma alta precisão para “unidade de trabalho” imediatamente após o nome da pessoa, significa que o modelo aprendeu diretamente “o empregador de Anya é Meta”. Se a alta precisão for alcançada apenas no final da biografia, pode ser que o modelo utilize um método de memória falho, como "o aniversário de alguém é 2 de outubro de 1996, a universidade é MIT, então o empregador é Meta".
O projeto experimental para a sonda P é o seguinte. Encontre as posições em cada biografia onde os 6 atributos aparecem pela primeira vez e, em seguida, treine um classificador linear para prever cada atributo alvo na posição imediatamente anterior a essas posições. Isso resultou em 36 tarefas de classificação.
Os resultados do teste P-probe mostram que o modelo de linguagem natural pode lembrar informações por meio de nomes de pessoas para obter compressão durante o pré-treinamento, e também pode usar outras informações (como "A unidade de trabalho de uma pessoa que estudou no MIT e cujo aniversário é 2 de outubro de 1996 é ...")memória. Embora o segundo método de memória não seja "natural" para os humanos, as taxas de compressão dos dois métodos são as mesmas para o modelo. Se o modelo usar o segundo método para lembrar informações, ele não será capaz de responder perguntas por meio de ajuste fino após o treinamento. Através do aprimoramento do conhecimento, o modelo pré-treinado tenderá gradativamente a aprender a usar o primeiro método de memória.
Pode-se argumentar que a falha na “extração de conhecimento” acima pode ser devida à natureza unidirecional de modelos de linguagem autorregressivos, como o GPT. Na verdade, modelos de linguagem bidirecionais como o BERT são ainda piores na extração de conhecimento: eles só podem armazenar conhecimento multifrase, como "Meta Platform", mas não podem extraí-lo. Os leitores interessados podem consultar o Capítulo 6 do artigo.
Em geral, se o modelo de linguagem pode responder à questão da “extração de conhecimento” depende não apenas da “compressão sem perdas”, mas também de “como compactar no modelo”. O artigo enfatiza que é necessário aprimorar o conhecimento de dados importantes, mas raros, durante o processo de pré-treinamento (como usar ChatGPT para reescritas múltiplas). Sem esta etapa, não importa o quanto você trabalhe no ajuste fino, embora o modelo pré-treinado tenha compactado os dados de treinamento sem perdas, ele ainda poderá ser incapaz de extrair esse conhecimento!
Conclusão
Como entender como funcionam os modelos de linguagem natural? A maioria dos pesquisadores especula sobre suas capacidades conversando com modelos como o GPT-4. No entanto, o autor da série de artigos "Language Model Physics" propôs um método mais preciso para explorar o mecanismo interno do Transformer e explicar sua capacidade de lidar com tarefas de IA por meio de dados de treinamento cuidadosamente projetados e experimentos controlados.
Na "Parte 3.1: Armazenamento e extração de conhecimento", o autor testou com precisão a resposta do modelo a diferentes dados e encontrou a relação precisa entre o conhecimento e a capacidade de aprendizagem do modelo e os dados de treinamento.
Eles também lançaram a “Parte 3.2: Operação do Conhecimento” para estudar mais a fundo como o modelo opera o conhecimento em situações específicas. Por exemplo, se o modelo grande se lembra de "Pensamentos de Noite Silenciosa", pode ser ajustado para inferir que a última frase de "Pensamentos de Noite Silenciosa" é "Incline a cabeça e sinta falta de sua cidade natal"? Em breve traremos relatórios de acompanhamento.