Não use GPT-4 para extrair resumos de texto diretamente! MIT, Columbia, etc. lançaram um novo lembrete de "cadeia de densidade": a densidade física é a chave para a qualidade abstrata
Após o lançamento do ChatGPT, a tecnologia de geração de texto desenvolveu-se rapidamente e um grande número de tarefas de PNL enfrentam o dilema de serem completamente superadas, especialmente para a tarefa de "resumo de texto" que carece de respostas padrão.
Mas como incluir uma “quantidade razoável de informação” num resumo ainda é muito difícil: um bom resumo deve ser detalhado e centrado na entidade, e não denso na entidade e difícil de compreender.
Para entender melhor o equilíbrio entre o volume de informações e a compreensibilidade, pesquisadores do MIT, da Universidade de Columbia e de outras instituições propuseram um novo prompt "Cadeia de Densidade" que pode ser usado sem a adição de texto abstrato. Sob a premissa de comprimento, o o resumo esparso de entidade gerado pelo GPT-4 é otimizado iterativamente e entidades importantes ausentes são adicionadas gradualmente.
Link do papel:
Dados de código aberto:
A julgar pelos resultados experimentais, o resumo gerado pelo CoD é mais abstrato do que o resumo GPT-4 gerado pelos prompts comuns, mostrando mais fusão e menos viés de derivação.
Depois de realizar um estudo de preferência humana em 100 artigos do CNN DailyMail, pode-se descobrir que os humanos também estão mais inclinados a escolher resultados resumidos com entidades mais densas, o que é semelhante à densidade de entidades de resumos escritos por humanos.
Os pesquisadores abriram o código-fonte de 500 resumos anotados de CoD e 5.000 dados abstratos não anotados.
Melhorar iterativamente o resumo do texto
dica()
O objetivo da tarefa é utilizar o GPT-4 para gerar um conjunto de resumos com “diferentes níveis de densidade de informação” e ao mesmo tempo controlar a extensão do texto.
Os pesquisadores propuseram dicas de Cadeia de Densidade (CoD, Chain of Density) para gerar um resumo inicial e gradualmente tornar as entidades cada vez mais densas.
Especificamente, sob um número fixo de rodadas de iteração, um conjunto de entidades únicas e salientes no texto fonte é identificado e mesclado no resumo anterior sem aumentar o comprimento do texto.
O primeiro resumo gerado é esparso em entidades, concentrando-se apenas em 1-3 entidades iniciais; para manter o mesmo comprimento de texto enquanto aumenta o número de entidades cobertas, a abstração, a fusão e a compactação precisam ser explicitamente incentivadas. Em vez de remover conteúdo significativo conteúdo do resumo anterior.
Os pesquisadores não especificaram o tipo de entidade, mas simplesmente definiram Entidade Ausente como:
**Relevante: **Relacionado à história principal;
Específico: Descritivo, mas conciso (5 palavras ou menos);
**Romance: **Não aparece em resumos anteriores;
**Fiel: **Existe no texto original;
Em qualquer lugar: pode aparecer em qualquer lugar do artigo.
Em termos de seleção de dados, os pesquisadores selecionaram aleatoriamente 100 artigos do conjunto de testes de resumo CNN/DailyMail para gerar resumos de CoD.
As estatísticas de resumo do CoD foram então comparadas com resumos de referência em estilo de marcadores escritos por humanos e com resumos gerados pelo GPT-4 sob o prompt regular, onde o prompt era "Escreva um resumo muito breve do artigo, com no máximo 70 palavras" (Escreva um breve resumo do artigo. Não exceda 70 palavras).
O comprimento esperado do token é definido para corresponder ao comprimento do token do resumo do CoD.
resultados estatísticos
Indicadores estatísticos diretos
Use NLTK para contar o número de tokens, use Spacy2 para medir o número de entidades exclusivas e calcule a taxa de densidade da entidade.
O prompt do CoD limita muito o número esperado de tokens para a geração do resumo. Pode-se observar que a partir da segunda etapa, palavras desnecessárias são gradativamente removidas do extenso resumo inicial, resultando em uma redução média do comprimento do texto de 5 tokens ( 72 a 67).
A densidade da entidade também aumenta, inicialmente em 0,089, que é inferior aos resultados humanos e GPT-4 (0,151 e 0,122 respectivamente), e após 5 etapas a densidade sobe para 0,167.
Indicadores estatísticos indiretos
Usando a densidade extrativa (o quadrado do comprimento médio dos fragmentos extraídos) para medir a abstração do texto, espera-se que o texto aumente à medida que as iterações do CoD progridem.
Use "o número de sentenças resumidas alinhadas com o texto fonte" como o índice de fusão de conceito, no qual o algoritmo de alinhamento usa "ganho ROUGE relativo" para alinhar a sentença fonte com a sentença alvo até que sentenças adicionais adicionadas não aumentem mais o ROUGE relativo Espera-se que a fusão aumente gradativamente.
Usando "a posição do conteúdo do resumo no texto fonte" como indicador de distribuição de conteúdo (distribuição de conteúdo), o método de medição específico é a classificação média de todas as frases originais alinhadas.Espera-se que o resumo do CoD inicialmente mostre viés de liderança óbvio , e então gradualmente começar a mover-se a partir do meio do artigo e a parte final apresenta entidades.
Os resultados estatísticos também verificaram a correção dos resultados esperados: a abstração aumentou gradativamente com o processo de reescrita, a taxa de fusão aumentou e o resumo começou a ser integrado no meio e no final do artigo.
E todos os resumos de CoD são mais abstratos do que resumos escritos à mão e gerados por modelos de linha de base.
Resultados experimentais
Para entender melhor as vantagens e desvantagens do resumo do CoD, conduzimos um estudo humano baseado em preferências e uma avaliação baseada em classificação com GPT-4.
Avaliação de preferência humana
Os pesquisadores se concentraram em avaliar o impacto da densificação na avaliação geral da massa humana.
Especificamente, ao inserir 100 artigos, você pode obter "5 etapas*100=500 resumos no total".Os resultados do resumo são exibidos aleatoriamente para quatro anotadores e, com base na Essência, Clareza e Resumos do texto original, são avaliados em Precisão, Propósito , Conciso e Estilo.
A julgar pelos resultados da votação, a segunda etapa do CoD recebeu a avaliação mais alta. Combinado com os resultados experimentais anteriores de densidade média, pode-se inferir aproximadamente que os humanos são mais propensos a escolher resumos de texto com uma densidade de entidade de cerca de 15%, o que é significativamente maior do que o resumo gerado pelo GPT-4 (densidade de entidade 0,122).
Métricas de avaliação automática
Alguns trabalhos recentes demonstraram que a avaliação do GPT-4 tem uma correlação muito alta com os resultados da avaliação humana e pode até ter um desempenho melhor do que os trabalhadores de crowdsourcing em algumas tarefas de anotação.
Como complemento à avaliação manual, os pesquisadores propuseram o uso do GPT-4 para avaliar resumos de CoD (1-5) em 5 aspectos: informativo (Informativo), qualidade (Qualidade), coerência (Coerência) e atribuição (Atribuível) e geral.
O modelo de comando usado é:
Artigo: Artigo
Resumo: Resumo
Avalie o resumo (1=pior a 5=melhor) em relação à Dimensão.
Definição
As definições de cada indicador são:
Informativo: Um resumo informativo pode capturar as informações importantes do artigo e apresentá-las de forma precisa e concisa. (Um resumo informativo captura as informações importantes do artigo e as apresenta de forma precisa e concisa.)
**Qualidade:**Resumos de alta qualidade são compreensíveis. (Um resumo de alta qualidade é compreensível e compreensível.)
Coerência: Um resumo coerente é bem estruturado e organizado. (Um resumo coerente é bem estruturado e organizado.)
Atribuição: Todas as informações do resumo são integralmente atribuídas ao artigo? (Todas as informações do
resumo totalmente atribuível ao artigo?)
Preferência Geral: Um bom resumo deve transmitir os principais pontos do artigo de forma concisa, lógica e coerente. (Um bom resumo deve transmitir as ideias principais do artigo de forma concisa, lógica e coerente.)
Resultados experimentais mostram que a densificação está relacionada ao conteúdo da informação, mas a pontuação atinge o pico no passo 4 (4,74); a qualidade e a coerência diminuem mais rapidamente; todos os resumos são considerados atribuídos ao artigo fonte; as pontuações gerais tendem a ser maiores Para resumos mais densos e informativos , a etapa 4 obtém a melhor pontuação. Em média, a primeira e a última etapas do CoD são as menos favorecidas, enquanto as três etapas intermediárias estão próximas (4,78, 4,77 e 4,76, respectivamente).
Análise qualitativa
Há um compromisso entre coerência/legibilidade e informatividade do resumo durante o processo iterativo.
O exemplo acima mostra duas etapas do CoD, uma contendo conteúdo mais detalhado e outra com conteúdo mais aproximado.
Em média, os resumos do CoD das etapas intermédias alcançam um melhor equilíbrio, mas ainda não foi definido como definir e quantificar com precisão este equilíbrio.
Referências:
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Não use GPT-4 para extrair resumos de texto diretamente! MIT, Columbia, etc. lançaram um novo lembrete de "cadeia de densidade": a densidade física é a chave para a qualidade abstrata
Fonte original: Xinzhiyuan
Após o lançamento do ChatGPT, a tecnologia de geração de texto desenvolveu-se rapidamente e um grande número de tarefas de PNL enfrentam o dilema de serem completamente superadas, especialmente para a tarefa de "resumo de texto" que carece de respostas padrão.
Mas como incluir uma “quantidade razoável de informação” num resumo ainda é muito difícil: um bom resumo deve ser detalhado e centrado na entidade, e não denso na entidade e difícil de compreender.
Para entender melhor o equilíbrio entre o volume de informações e a compreensibilidade, pesquisadores do MIT, da Universidade de Columbia e de outras instituições propuseram um novo prompt "Cadeia de Densidade" que pode ser usado sem a adição de texto abstrato. Sob a premissa de comprimento, o o resumo esparso de entidade gerado pelo GPT-4 é otimizado iterativamente e entidades importantes ausentes são adicionadas gradualmente.
Dados de código aberto:
A julgar pelos resultados experimentais, o resumo gerado pelo CoD é mais abstrato do que o resumo GPT-4 gerado pelos prompts comuns, mostrando mais fusão e menos viés de derivação.
Os pesquisadores abriram o código-fonte de 500 resumos anotados de CoD e 5.000 dados abstratos não anotados.
Melhorar iterativamente o resumo do texto
dica()
O objetivo da tarefa é utilizar o GPT-4 para gerar um conjunto de resumos com “diferentes níveis de densidade de informação” e ao mesmo tempo controlar a extensão do texto.
Os pesquisadores propuseram dicas de Cadeia de Densidade (CoD, Chain of Density) para gerar um resumo inicial e gradualmente tornar as entidades cada vez mais densas.
Especificamente, sob um número fixo de rodadas de iteração, um conjunto de entidades únicas e salientes no texto fonte é identificado e mesclado no resumo anterior sem aumentar o comprimento do texto.
Os pesquisadores não especificaram o tipo de entidade, mas simplesmente definiram Entidade Ausente como:
**Relevante: **Relacionado à história principal;
Específico: Descritivo, mas conciso (5 palavras ou menos);
**Romance: **Não aparece em resumos anteriores;
**Fiel: **Existe no texto original;
Em qualquer lugar: pode aparecer em qualquer lugar do artigo.
Em termos de seleção de dados, os pesquisadores selecionaram aleatoriamente 100 artigos do conjunto de testes de resumo CNN/DailyMail para gerar resumos de CoD.
As estatísticas de resumo do CoD foram então comparadas com resumos de referência em estilo de marcadores escritos por humanos e com resumos gerados pelo GPT-4 sob o prompt regular, onde o prompt era "Escreva um resumo muito breve do artigo, com no máximo 70 palavras" (Escreva um breve resumo do artigo. Não exceda 70 palavras).
O comprimento esperado do token é definido para corresponder ao comprimento do token do resumo do CoD.
resultados estatísticos
Indicadores estatísticos diretos
Use NLTK para contar o número de tokens, use Spacy2 para medir o número de entidades exclusivas e calcule a taxa de densidade da entidade.
A densidade da entidade também aumenta, inicialmente em 0,089, que é inferior aos resultados humanos e GPT-4 (0,151 e 0,122 respectivamente), e após 5 etapas a densidade sobe para 0,167.
Indicadores estatísticos indiretos
Usando a densidade extrativa (o quadrado do comprimento médio dos fragmentos extraídos) para medir a abstração do texto, espera-se que o texto aumente à medida que as iterações do CoD progridem.
Use "o número de sentenças resumidas alinhadas com o texto fonte" como o índice de fusão de conceito, no qual o algoritmo de alinhamento usa "ganho ROUGE relativo" para alinhar a sentença fonte com a sentença alvo até que sentenças adicionais adicionadas não aumentem mais o ROUGE relativo Espera-se que a fusão aumente gradativamente.
Usando "a posição do conteúdo do resumo no texto fonte" como indicador de distribuição de conteúdo (distribuição de conteúdo), o método de medição específico é a classificação média de todas as frases originais alinhadas.Espera-se que o resumo do CoD inicialmente mostre viés de liderança óbvio , e então gradualmente começar a mover-se a partir do meio do artigo e a parte final apresenta entidades.
E todos os resumos de CoD são mais abstratos do que resumos escritos à mão e gerados por modelos de linha de base.
Resultados experimentais
Para entender melhor as vantagens e desvantagens do resumo do CoD, conduzimos um estudo humano baseado em preferências e uma avaliação baseada em classificação com GPT-4.
Avaliação de preferência humana
Os pesquisadores se concentraram em avaliar o impacto da densificação na avaliação geral da massa humana.
Especificamente, ao inserir 100 artigos, você pode obter "5 etapas*100=500 resumos no total".Os resultados do resumo são exibidos aleatoriamente para quatro anotadores e, com base na Essência, Clareza e Resumos do texto original, são avaliados em Precisão, Propósito , Conciso e Estilo.
Alguns trabalhos recentes demonstraram que a avaliação do GPT-4 tem uma correlação muito alta com os resultados da avaliação humana e pode até ter um desempenho melhor do que os trabalhadores de crowdsourcing em algumas tarefas de anotação.
Como complemento à avaliação manual, os pesquisadores propuseram o uso do GPT-4 para avaliar resumos de CoD (1-5) em 5 aspectos: informativo (Informativo), qualidade (Qualidade), coerência (Coerência) e atribuição (Atribuível) e geral.
O modelo de comando usado é:
As definições de cada indicador são:
Informativo: Um resumo informativo pode capturar as informações importantes do artigo e apresentá-las de forma precisa e concisa. (Um resumo informativo captura as informações importantes do artigo e as apresenta de forma precisa e concisa.)
**Qualidade:**Resumos de alta qualidade são compreensíveis. (Um resumo de alta qualidade é compreensível e compreensível.)
Coerência: Um resumo coerente é bem estruturado e organizado. (Um resumo coerente é bem estruturado e organizado.)
Atribuição: Todas as informações do resumo são integralmente atribuídas ao artigo? (Todas as informações do
resumo totalmente atribuível ao artigo?)
Preferência Geral: Um bom resumo deve transmitir os principais pontos do artigo de forma concisa, lógica e coerente. (Um bom resumo deve transmitir as ideias principais do artigo de forma concisa, lógica e coerente.)
Análise qualitativa
Há um compromisso entre coerência/legibilidade e informatividade do resumo durante o processo iterativo.
Em média, os resumos do CoD das etapas intermédias alcançam um melhor equilíbrio, mas ainda não foi definido como definir e quantificar com precisão este equilíbrio.
Referências: