Não use GPT-4 para extrair resumos de texto diretamente! MIT, Columbia, etc. lançaram um novo lembrete de "cadeia de densidade": a densidade física é a chave para a qualidade abstrata

Fonte original: Xinzhiyuan

Fonte da imagem: gerada por Unbounded AI

Após o lançamento do ChatGPT, a tecnologia de geração de texto desenvolveu-se rapidamente e um grande número de tarefas de PNL enfrentam o dilema de serem completamente superadas, especialmente para a tarefa de "resumo de texto" que carece de respostas padrão.

Mas como incluir uma “quantidade razoável de informação” num resumo ainda é muito difícil: um bom resumo deve ser detalhado e centrado na entidade, e não denso na entidade e difícil de compreender.

Para entender melhor o equilíbrio entre o volume de informações e a compreensibilidade, pesquisadores do MIT, da Universidade de Columbia e de outras instituições propuseram um novo prompt "Cadeia de Densidade" que pode ser usado sem a adição de texto abstrato. Sob a premissa de comprimento, o o resumo esparso de entidade gerado pelo GPT-4 é otimizado iterativamente e entidades importantes ausentes são adicionadas gradualmente.

Link do papel:

Dados de código aberto:

A julgar pelos resultados experimentais, o resumo gerado pelo CoD é mais abstrato do que o resumo GPT-4 gerado pelos prompts comuns, mostrando mais fusão e menos viés de derivação.

Depois de realizar um estudo de preferência humana em 100 artigos do CNN DailyMail, pode-se descobrir que os humanos também estão mais inclinados a escolher resultados resumidos com entidades mais densas, o que é semelhante à densidade de entidades de resumos escritos por humanos.

Os pesquisadores abriram o código-fonte de 500 resumos anotados de CoD e 5.000 dados abstratos não anotados.

Melhorar iterativamente o resumo do texto

dica()

O objetivo da tarefa é utilizar o GPT-4 para gerar um conjunto de resumos com “diferentes níveis de densidade de informação” e ao mesmo tempo controlar a extensão do texto.

Os pesquisadores propuseram dicas de Cadeia de Densidade (CoD, Chain of Density) para gerar um resumo inicial e gradualmente tornar as entidades cada vez mais densas.

Especificamente, sob um número fixo de rodadas de iteração, um conjunto de entidades únicas e salientes no texto fonte é identificado e mesclado no resumo anterior sem aumentar o comprimento do texto.

O primeiro resumo gerado é esparso em entidades, concentrando-se apenas em 1-3 entidades iniciais; para manter o mesmo comprimento de texto enquanto aumenta o número de entidades cobertas, a abstração, a fusão e a compactação precisam ser explicitamente incentivadas. Em vez de remover conteúdo significativo conteúdo do resumo anterior.

Os pesquisadores não especificaram o tipo de entidade, mas simplesmente definiram Entidade Ausente como:

**Relevante: **Relacionado à história principal;

Específico: Descritivo, mas conciso (5 palavras ou menos);

**Romance: **Não aparece em resumos anteriores;

**Fiel: **Existe no texto original;

Em qualquer lugar: pode aparecer em qualquer lugar do artigo.

Em termos de seleção de dados, os pesquisadores selecionaram aleatoriamente 100 artigos do conjunto de testes de resumo CNN/DailyMail para gerar resumos de CoD.

As estatísticas de resumo do CoD foram então comparadas com resumos de referência em estilo de marcadores escritos por humanos e com resumos gerados pelo GPT-4 sob o prompt regular, onde o prompt era "Escreva um resumo muito breve do artigo, com no máximo 70 palavras" (Escreva um breve resumo do artigo. Não exceda 70 palavras).

O comprimento esperado do token é definido para corresponder ao comprimento do token do resumo do CoD.

resultados estatísticos

Indicadores estatísticos diretos

Use NLTK para contar o número de tokens, use Spacy2 para medir o número de entidades exclusivas e calcule a taxa de densidade da entidade.

O prompt do CoD limita muito o número esperado de tokens para a geração do resumo. Pode-se observar que a partir da segunda etapa, palavras desnecessárias são gradativamente removidas do extenso resumo inicial, resultando em uma redução média do comprimento do texto de 5 tokens ( 72 a 67).

A densidade da entidade também aumenta, inicialmente em 0,089, que é inferior aos resultados humanos e GPT-4 (0,151 e 0,122 respectivamente), e após 5 etapas a densidade sobe para 0,167.

Indicadores estatísticos indiretos

Usando a densidade extrativa (o quadrado do comprimento médio dos fragmentos extraídos) para medir a abstração do texto, espera-se que o texto aumente à medida que as iterações do CoD progridem.

Use "o número de sentenças resumidas alinhadas com o texto fonte" como o índice de fusão de conceito, no qual o algoritmo de alinhamento usa "ganho ROUGE relativo" para alinhar a sentença fonte com a sentença alvo até que sentenças adicionais adicionadas não aumentem mais o ROUGE relativo Espera-se que a fusão aumente gradativamente.

Usando "a posição do conteúdo do resumo no texto fonte" como indicador de distribuição de conteúdo (distribuição de conteúdo), o método de medição específico é a classificação média de todas as frases originais alinhadas.Espera-se que o resumo do CoD inicialmente mostre viés de liderança óbvio , e então gradualmente começar a mover-se a partir do meio do artigo e a parte final apresenta entidades.

Os resultados estatísticos também verificaram a correção dos resultados esperados: a abstração aumentou gradativamente com o processo de reescrita, a taxa de fusão aumentou e o resumo começou a ser integrado no meio e no final do artigo.

E todos os resumos de CoD são mais abstratos do que resumos escritos à mão e gerados por modelos de linha de base.

Resultados experimentais

Para entender melhor as vantagens e desvantagens do resumo do CoD, conduzimos um estudo humano baseado em preferências e uma avaliação baseada em classificação com GPT-4.

Avaliação de preferência humana

Os pesquisadores se concentraram em avaliar o impacto da densificação na avaliação geral da massa humana.

Especificamente, ao inserir 100 artigos, você pode obter "5 etapas*100=500 resumos no total".Os resultados do resumo são exibidos aleatoriamente para quatro anotadores e, com base na Essência, Clareza e Resumos do texto original, são avaliados em Precisão, Propósito , Conciso e Estilo.

A julgar pelos resultados da votação, a segunda etapa do CoD recebeu a avaliação mais alta. Combinado com os resultados experimentais anteriores de densidade média, pode-se inferir aproximadamente que os humanos são mais propensos a escolher resumos de texto com uma densidade de entidade de cerca de 15%, o que é significativamente maior do que o resumo gerado pelo GPT-4 (densidade de entidade 0,122).

Métricas de avaliação automática

Alguns trabalhos recentes demonstraram que a avaliação do GPT-4 tem uma correlação muito alta com os resultados da avaliação humana e pode até ter um desempenho melhor do que os trabalhadores de crowdsourcing em algumas tarefas de anotação.

Como complemento à avaliação manual, os pesquisadores propuseram o uso do GPT-4 para avaliar resumos de CoD (1-5) em 5 aspectos: informativo (Informativo), qualidade (Qualidade), coerência (Coerência) e atribuição (Atribuível) e geral.

O modelo de comando usado é:

Artigo: Artigo Resumo: Resumo Avalie o resumo (1=pior a 5=melhor) em relação à Dimensão. Definição

As definições de cada indicador são:

Informativo: Um resumo informativo pode capturar as informações importantes do artigo e apresentá-las de forma precisa e concisa. (Um resumo informativo captura as informações importantes do artigo e as apresenta de forma precisa e concisa.)

**Qualidade:**Resumos de alta qualidade são compreensíveis. (Um resumo de alta qualidade é compreensível e compreensível.)

Coerência: Um resumo coerente é bem estruturado e organizado. (Um resumo coerente é bem estruturado e organizado.)

Atribuição: Todas as informações do resumo são integralmente atribuídas ao artigo? (Todas as informações do

resumo totalmente atribuível ao artigo?)

Preferência Geral: Um bom resumo deve transmitir os principais pontos do artigo de forma concisa, lógica e coerente. (Um bom resumo deve transmitir as ideias principais do artigo de forma concisa, lógica e coerente.)

Resultados experimentais mostram que a densificação está relacionada ao conteúdo da informação, mas a pontuação atinge o pico no passo 4 (4,74); a qualidade e a coerência diminuem mais rapidamente; todos os resumos são considerados atribuídos ao artigo fonte; as pontuações gerais tendem a ser maiores Para resumos mais densos e informativos , a etapa 4 obtém a melhor pontuação. Em média, a primeira e a última etapas do CoD são as menos favorecidas, enquanto as três etapas intermediárias estão próximas (4,78, 4,77 e 4,76, respectivamente).

Análise qualitativa

Há um compromisso entre coerência/legibilidade e informatividade do resumo durante o processo iterativo.

O exemplo acima mostra duas etapas do CoD, uma contendo conteúdo mais detalhado e outra com conteúdo mais aproximado.

Em média, os resumos do CoD das etapas intermédias alcançam um melhor equilíbrio, mas ainda não foi definido como definir e quantificar com precisão este equilíbrio.

Referências:

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)