N'utilisez pas GPT-4 pour extraire directement des résumés de texte ! Le MIT, Columbia, etc. ont publié un nouveau rappel sur la « chaîne de densité » : la densité physique est la clé de la qualité abstraite

2023-10-01 09:13:30

Source originale : Xinzhiyuan

Source de l'image : générée par Unbounded AI

Après la sortie de ChatGPT, la technologie de génération de texte s'est développée rapidement et un grand nombre de tâches PNL sont confrontées au dilemme d'être complètement surmontées, en particulier pour la tâche « résumé de texte » qui manque de réponses standard.

Mais comment inclure une « quantité raisonnable d'informations » dans un résumé reste très difficile : un bon résumé doit être détaillé et centré sur l'entité, et non dense sur l'entité et difficile à comprendre.

Afin de mieux comprendre le compromis entre le volume d'informations et la compréhensibilité, des chercheurs du MIT, de l'Université de Columbia et d'autres institutions ont proposé une nouvelle invite « Chaîne de densité » qui peut être utilisée sans ajouter de texte abstrait. Le résumé des entités dispersées généré par GPT-4 est optimisé de manière itérative et les entités importantes manquantes sont progressivement ajoutées.

Lien papier :

Données open source :

À en juger par les résultats expérimentaux, le résumé généré par CoD est plus abstrait que le résumé GPT-4 généré par des invites ordinaires, montrant plus de fusion et moins de biais de plomb.

Après avoir mené une étude des préférences humaines sur 100 articles de CNN DailyMail, nous avons constaté que les humains sont également plus enclins à choisir des résultats de synthèse avec des entités plus denses, ce qui est similaire à la densité d'entités des résumés rédigés par des humains.

Les chercheurs ont ouvert 500 résumés CoD annotés et 5 000 données abstraites non annotées.

Améliorer de manière itérative le résumé du texte

indice()

L'objectif de la tâche est d'utiliser GPT-4 pour générer un ensemble de résumés avec « différents niveaux de densité d'informations » tout en contrôlant également la longueur du texte.

Les chercheurs ont proposé des indices de chaîne de densité (CoD, Chain of Density) pour générer un premier résumé et rendre progressivement les entités de plus en plus denses.

Plus précisément, sous un nombre fixe de cycles d'itérations, un ensemble d'entités uniques et saillantes dans le texte source sont identifiées et fusionnées dans le résumé précédent sans augmenter la longueur du texte.

Le premier résumé généré est fragmenté en entités, se concentrant uniquement sur 1 à 3 entités initiales ; afin de conserver la même longueur de texte tout en augmentant le nombre d'entités couvertes, l'abstraction, la fusion et la compression doivent être explicitement encouragées. Plutôt que de supprimer des entités significatives contenu du résumé précédent.

Les chercheurs n’ont pas précisé le type d’entité, mais ont simplement défini l’entité manquante comme :

**Pertinent : **En rapport avec l'histoire principale ;

Spécifique : Descriptif mais concis (5 mots ou moins) ;

**Roman : **N'apparaît pas dans les résumés précédents ;

**Fidèle : **Existe dans le texte original ;

N'importe où : peut apparaître n'importe où dans l'article.

En termes de sélection des données, les chercheurs ont sélectionné au hasard 100 articles de l'ensemble de tests de résumé CNN/DailyMail pour générer des résumés CoD.

Les statistiques récapitulatives de CoD ont ensuite été comparées à des résumés de référence rédigés par des humains et à des résumés générés par GPT-4 sous l'invite habituelle, où l'invite était « Écrivez un très bref résumé de l'article, ne dépassant pas 70 mots ». (Rédigez un TRÈS court résumé de l’article. Ne dépassez pas 70 mots).

La longueur attendue du jeton est définie pour correspondre à la longueur du jeton du résumé CoD.

résultats statistiques

Indicateurs statistiques directs

Utilisez NLTK pour compter le nombre de jetons, utilisez Spacy2 pour mesurer le nombre d'entités uniques et calculez le ratio de densité d'entités.

L'indice CoD limite considérablement le nombre de jetons attendu pour générer le résumé. On peut constater qu'à partir de la deuxième étape, les mots inutiles sont progressivement supprimés du long résumé initial, ce qui entraîne une réduction moyenne de la longueur du texte de 5 jetons ( 72 à 67) .

La densité d'entités augmente également, initialement à 0,089, ce qui est inférieur aux résultats humains et GPT-4 (0,151 et 0,122 respectivement), et après 5 étapes, la densité monte à 0,167.

Indicateurs statistiques indirects

En utilisant la densité extractive (le carré de la longueur moyenne des fragments extraits) pour mesurer le caractère abstrait du texte, on s'attend à ce que le texte augmente à mesure que les itérations CoD progressent.

Utilisez « le nombre de phrases récapitulatives alignées avec le texte source » comme indice de fusion de concepts, où l'algorithme d'alignement utilise le « gain relatif de ROUGE » pour aligner la phrase source avec la phrase cible jusqu'à ce que les phrases supplémentaires ajoutées n'augmentent plus le gain relatif de ROUGE. On s'attend à ce que la fusion augmente progressivement.

En utilisant « la position du contenu du résumé dans le texte source » comme indicateur de distribution du contenu (Content Distribution), la méthode de mesure spécifique est le classement moyen de toutes les phrases sources alignées. On s'attend à ce que le résumé CoD montre initialement un biais de plomb évident , puis commencez progressivement à vous déplacer à partir du milieu de l'article et la partie finale présente les entités.

Les résultats statistiques ont également vérifié l'exactitude des résultats attendus : l'abstraction a progressivement augmenté avec le processus de réécriture, le taux de fusion a augmenté et le résumé a commencé à être intégré au milieu et à la fin de l'article.

Et tous les résumés CoD sont plus abstraits que les résumés écrits à la main et générés par un modèle de base.

Résultats expérimentaux

Pour mieux comprendre les compromis de la synthèse CoD, nous avons mené une étude humaine basée sur les préférences et une évaluation basée sur les notations avec GPT-4.

Évaluation des préférences humaines

Les chercheurs se sont concentrés sur l’évaluation de l’impact de la densification sur l’évaluation globale de la masse humaine.

Plus précisément, en saisissant 100 articles, vous pouvez obtenir "5 étapes*100=500 résumés au total". Les résultats du résumé sont affichés de manière aléatoire à quatre annotateurs et, en fonction de l'essence, de la clarté et des résumés du texte original, sont évalués en termes d'exactitude et d'objectif. , concis et stylé.

À en juger par les résultats du vote, la deuxième étape CoD a reçu l'évaluation la plus élevée. En combinaison avec les résultats expérimentaux précédents de densité moyenne, on peut en déduire grossièrement que les humains sont plus susceptibles de choisir des résumés de texte avec une densité d'entité d'environ 15 %, ce qui est significativement plus élevé que le résumé généré par GPT-4 (densité d’entité 0,122).

Mesures d'évaluation automatique

Certains travaux récents ont démontré que l'évaluation de GPT-4 a une très forte corrélation avec les résultats de l'évaluation humaine et peut même être plus performante que les travailleurs du crowdsourcing sur certaines tâches d'annotation.

En complément de l'évaluation manuelle, les chercheurs ont proposé d'utiliser GPT-4 pour évaluer les résumés CoD (1-5) sous 5 aspects : informatif (informatif), qualité (qualité), cohérence (cohérence) et attribution (attribuable) et globalement.

Le modèle de commande utilisé est :

Article : Article Résumé : Résumé Veuillez évaluer le résumé (1 = le pire à 5 = le meilleur) par rapport à Dimension. Définition

Les définitions de chaque indicateur sont les suivantes :

Informatif : Un résumé informatif peut capturer les informations importantes contenues dans l'article et les présenter de manière précise et concise. (Un résumé informatif capture les informations importantes contenues dans l'article et les présente de manière précise et concise.)

**Qualité :**Les résumés de haute qualité sont compréhensibles. (Un résumé de haute qualité est compréhensible et compréhensible.)

Cohérence : Un résumé cohérent est bien structuré et bien organisé. (Un résumé cohérent est bien structuré et bien organisé.)

Attribution : Toutes les informations contenues dans le résumé sont-elles entièrement attribuées à l'article ? (Est-ce que toutes les informations contenues dans le

résumé entièrement imputable à l’article ?）

Préférence générale : Un bon résumé doit transmettre les principaux points de l'article de manière concise, logique et cohérente. (Un bon résumé doit transmettre les idées principales de l'article de manière concise, logique et cohérente.)

Les résultats expérimentaux montrent que la densification est liée au contenu de l'information, mais le score culmine à l'étape 4 (4,74) ; la qualité et la cohérence diminuent plus rapidement ; tous les résumés sont considérés comme attribués à l'article source ; les scores globaux ont tendance à être plus élevés. Pour des résumés plus denses et plus informatifs , l'étape 4 obtient les meilleurs résultats. En moyenne, les première et dernière étapes CoD sont les moins favorisées, tandis que les trois étapes du milieu sont proches (respectivement 4,78, 4,77 et 4,76).

Analyse qualitative

Il existe un compromis entre cohérence/lisibilité et contenu informatif du résumé au cours du processus itératif.

L'exemple ci-dessus montre deux étapes CoD, une contenant un contenu plus détaillé et une avec un contenu plus approximatif.

En moyenne, les résumés CoD des étapes intermédiaires permettent d’obtenir un meilleur équilibre, mais la manière de définir et de quantifier précisément cet équilibre n’a pas encore été trouvée.

Les références:

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime

Récompense
1
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1Gate Launchpad List IKA
50k Popularité
2ETH Back to $3,800
7k Popularité
3Tariff Deal New Update
6k Popularité
4Stablecoin Regulation
658 Popularité
5Gate ETH 10th Anniversary Celebration
24k Popularité

Épingler