¡No utilice GPT-4 para extraer resúmenes de texto directamente! MIT, Columbia, etc. lanzaron un nuevo recordatorio de "cadena de densidad": la densidad física es la clave para la calidad abstracta

Fuente original: Xinzhiyuan

Fuente de la imagen: Generada por IA ilimitada

Después del lanzamiento de ChatGPT, la tecnología de generación de texto se ha desarrollado rápidamente y una gran cantidad de tareas de PNL se enfrentan al dilema de ser superadas por completo, especialmente la tarea de "resumen de texto" que carece de respuestas estándar.

Pero cómo incluir una "cantidad razonable de información" en un resumen sigue siendo muy difícil: un buen resumen debe ser detallado y centrado en las entidades, no denso en entidades y difícil de entender.

Para comprender mejor el equilibrio entre el volumen de información y la comprensibilidad, investigadores del MIT, la Universidad de Columbia y otras instituciones han propuesto un nuevo mensaje "Cadena de densidad" que se puede utilizar sin agregar texto abstracto. El resumen de entidades dispersas generado por GPT-4 se optimiza de forma iterativa y las entidades importantes que faltan se agregan gradualmente.

Enlace del artículo:

Datos de código abierto:

A juzgar por los resultados experimentales, el resumen generado por CoD es más abstracto que el resumen de GPT-4 generado por indicaciones ordinarias, y muestra más fusión y menos sesgo de plomo.

Después de realizar un estudio de preferencia humana en 100 artículos de CNN DailyMail, se puede encontrar que los humanos también están más inclinados a elegir resultados resumidos con entidades más densas, lo cual es similar a la densidad de entidades de los resúmenes escritos por humanos.

Los investigadores abrieron 500 resúmenes de CoD anotados y 5.000 datos de resúmenes no anotados.

Mejorar iterativamente el resumen de texto

pista()

El objetivo de la tarea es utilizar GPT-4 para generar un conjunto de resúmenes con "diferentes niveles de densidad de información" y al mismo tiempo controlar la longitud del texto.

Los investigadores propusieron sugerencias de Cadena de Densidad (CoD, Cadena de Densidad) para generar un resumen inicial y hacer que las entidades sean cada vez más densas.

Específicamente, bajo un número fijo de rondas de iteración, un conjunto de entidades únicas y destacadas en el texto fuente se identifican y fusionan en el resumen anterior sin aumentar la longitud del texto.

El primer resumen generado tiene pocas entidades y se centra solo en 1 a 3 entidades iniciales; para mantener la misma longitud del texto y al mismo tiempo aumentar el número de entidades cubiertas, es necesario fomentar explícitamente la abstracción, la fusión y la compresión. contenido del resumen anterior.

Los investigadores no especificaron el tipo de entidad, sino que simplemente definieron la Entidad Perdida como:

**Relevante: **Relacionado con la historia principal;

Específico: Descriptivo pero conciso (5 palabras o menos);

**Novela: **No aparece en resúmenes anteriores;

**Fiel: **Existe en el texto original;

En cualquier lugar: puede aparecer en cualquier parte del artículo.

En términos de selección de datos, los investigadores seleccionaron al azar 100 artículos del conjunto de pruebas de resumen de CNN/DailyMail para generar resúmenes de CoD.

Luego, las estadísticas de resumen de CoD se compararon con resúmenes de referencia con estilo de viñetas escritos por humanos y con resúmenes generados por GPT-4 bajo el mensaje habitual, donde el mensaje era "Escriba un resumen muy breve del artículo, de no más de 70 palabras". (Escribe un resumen MUY corto del Artículo. No exceda las 70 palabras).

La longitud esperada del token se establece para que coincida con la longitud del token del resumen de CoD.

resultados estadísticos

Indicadores estadísticos directos

Utilice NLTK para contar la cantidad de tokens, use Spacy2 para medir la cantidad de entidades únicas y calcule la relación de densidad de entidades.

El mensaje de CoD limita en gran medida la cantidad esperada de tokens para generar el resumen. Se puede ver que a partir del segundo paso, las palabras innecesarias se eliminan gradualmente del extenso resumen inicial, lo que resulta en una reducción promedio de la longitud del texto de 5 tokens ( 72 a 67).

La densidad de la entidad también aumenta, inicialmente en 0,089, que es inferior a los resultados humanos y GPT-4 (0,151 y 0,122 respectivamente), y después de 5 pasos la densidad aumenta a 0,167.

Indicadores estadísticos indirectos

Utilizando la densidad extractiva (el cuadrado de la longitud promedio de los fragmentos extraídos) para medir la abstracción del texto, se espera que el texto aumente a medida que avanzan las iteraciones de CoD.

Utilice "el número de oraciones resumidas alineadas con el texto fuente" como índice de fusión de conceptos, en el cual el algoritmo de alineación usa "ganancia relativa de ROUGE" para alinear la oración fuente con la oración objetivo hasta que se agreguen oraciones adicionales que ya no aumenten el ROUGE relativo. ganancia Se espera que la fusión aumente gradualmente.

Utilizando "la posición del contenido resumido en el texto fuente" como indicador de distribución de contenido (Distribución de contenido), el método de medición específico es la clasificación promedio de todas las oraciones fuente alineadas. Se espera que el resumen CoD muestre inicialmente un sesgo de liderazgo obvio. y luego, gradualmente, comienza a avanzar desde la mitad del artículo y la parte final presenta las entidades.

Los resultados estadísticos también verificaron la exactitud de los resultados esperados: la abstracción aumentó gradualmente con el proceso de reescritura, la tasa de fusión aumentó y el resumen comenzó a integrarse en la mitad y al final del artículo.

Además, todos los resúmenes de CoD son más abstractos que los resúmenes escritos a mano y generados por modelos de referencia.

Resultados experimentales

Para comprender mejor las ventajas y desventajas del resumen de CoD, realizamos un estudio en humanos basado en preferencias y una evaluación basada en calificaciones con GPT-4.

Evaluación de preferencias humanas

Los investigadores se centraron en evaluar el impacto de la densificación en la evaluación general de la masa humana.

Específicamente, al ingresar 100 artículos, puede obtener "5 pasos \ * 100 = 500 resúmenes en total". Los resultados del resumen se muestran aleatoriamente a cuatro anotadores y, según la esencia, la claridad y los resúmenes del texto original, se evalúan en términos de precisión y propósito. , Conciso y Estilo.

A juzgar por los resultados de la votación, el segundo paso de CoD recibió la evaluación más alta. Combinado con los resultados experimentales anteriores de densidad promedio, se puede inferir aproximadamente que es más probable que los humanos elijan resúmenes de texto con una densidad de entidad de aproximadamente el 15%, que es significativamente más alto que el resumen generado por GPT-4 (densidad de entidad 0,122).

Métricas de evaluación automática

Algunos trabajos recientes han demostrado que la evaluación de GPT-4 tiene una correlación muy alta con los resultados de la evaluación humana e incluso puede funcionar mejor que los trabajadores de crowdsourcing en algunas tareas de anotación.

Como complemento a la evaluación manual, los investigadores propusieron utilizar GPT-4 para calificar los resúmenes de CoD (1-5) en 5 aspectos: informativo (Informativo), calidad (Calidad), coherencia (Coherencia) y atribución (Atribuible) y general.

La plantilla de comando utilizada es:

Artículo: Artículo Resumen: Resumen Califique el resumen (1=peor a 5=mejor) con respecto a Dimension. Definición

Las definiciones de cada indicador son:

Informativo: Un resumen informativo puede capturar la información importante del artículo y presentarla de forma precisa y concisa. (Un resumen informativo captura la información importante del artículo y la presenta de forma precisa y concisa).

**Calidad:**Los resúmenes de alta calidad son comprensibles. (Un resumen de alta calidad es comprensible y comprensible).

Coherencia: Un resumen coherente está bien estructurado y bien organizado. (Un resumen coherente está bien estructurado y bien organizado).

Atribución: ¿Toda la información del resumen se atribuye íntegramente al artículo? (¿Está toda la información en el

resumen totalmente atribuible al artículo?)

Preferencia general: Un buen resumen debe transmitir los puntos principales del artículo de manera concisa, lógica y coherente. (Un buen resumen debe transmitir las ideas principales del artículo de manera concisa, lógica y coherente).

Los resultados experimentales muestran que la densificación está relacionada con el contenido de la información, pero la puntuación alcanza su punto máximo en el paso 4 (4,74); la calidad y la coherencia disminuyen más rápidamente; todos los resúmenes se consideran atribuidos al artículo fuente; las puntuaciones generales tienden a ser mayores Para resúmenes más densos e informativos , el paso 4 obtiene la mejor puntuación. En promedio, el primer y último paso de CoD son los menos favorecidos, mientras que los tres pasos intermedios están cerca (4,78, 4,77 y 4,76 respectivamente).

Analisis cualitativo

Existe un equilibrio entre coherencia/legibilidad e informatividad del resumen durante el proceso iterativo.

El ejemplo anterior muestra dos pasos de CoD, uno que contiene contenido más detallado y otro con contenido más aproximado.

En promedio, los resúmenes CoD de los pasos intermedios logran un mejor equilibrio, pero aún no se ha resuelto cómo definir y cuantificar con precisión este equilibrio.

Referencias:

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)