Не используйте GPT-4 для прямого извлечения текстовых сводок! Массачусетский технологический институт, Колумбия и др. выпустили новое напоминание о «цепочке плотности»: физическая плотность является ключом к абстрактному качеству.

2023-10-01 09:13:30

Первоисточник: Синьчжиюань

Источник изображения: Создано Unbounded AI

После выпуска ChatGPT технология генерации текста быстро развивалась, и большое количество задач НЛП сталкивается с дилеммой полного преодоления, особенно для задачи «текстовое резюме», на которую отсутствуют стандартные ответы.

Но как включить в резюме «разумное количество информации» по-прежнему очень сложно: хорошее резюме должно быть подробным и содержательным, а не насыщенным по объектам и трудным для понимания.

Чтобы лучше понять компромисс между объемом информации и ее понятностью, исследователи из Массачусетского технологического института, Колумбийского университета и других учреждений предложили новую подсказку «Плотная цепочка», которую можно использовать без добавления абстрактного текста. Сводка с разреженными объектами, созданная GPT-4, итеративно оптимизируется, и постепенно добавляются недостающие важные объекты.

Бумажная ссылка:

Данные из открытых источников:

Судя по результатам эксперимента, сводка, генерируемая CoD, более абстрактна, чем сводка GPT-4, генерируемая обычными подсказками, демонстрируя больше слияния и меньшую предвзятость.

Проведя исследование предпочтений людей по 100 статьям CNN DailyMail, можно обнаружить, что люди также более склонны выбирать итоговые результаты с более плотными объектами, что аналогично плотности объектов в резюме, написанных человеком.

Исследователи открыли исходный код 500 аннотированных рефератов CoD и 5000 неаннотированных абстрактных данных.

Итеративное улучшение суммирования текста

намекать()

Цель задачи — использовать GPT-4 для создания набора резюме с «разным уровнем плотности информации», а также контролировать длину текста.

Исследователи предложили подсказки Chain of Density (CoD, Chain of Density) для создания первоначального резюме и постепенного увеличения плотности объектов.

В частности, при фиксированном количестве итераций набор уникальных и существенных объектов исходного текста идентифицируется и объединяется с предыдущим резюме без увеличения длины текста.

Первое сгенерированное резюме является разреженным по объектам и фокусируется только на 1–3 исходных объектах; чтобы поддерживать ту же длину текста при увеличении количества охватываемых объектов, необходимо явно поощрять абстракцию, объединение и сжатие. Вместо удаления значимых объектов содержание из предыдущего резюме.

Исследователи не уточнили тип объекта, а просто определили Missing Entity как:

**Актуально: **Связано с основной историей;

Конкретный: Описательный, но краткий (не более 5 слов);

**Роман: **Не фигурирует в предыдущих тезисах;

**Верный: **Существует в исходном тексте;

Где угодно: может появляться в любом месте статьи.

Что касается отбора данных, исследователи случайным образом выбрали 100 статей из сводного тестового набора CNN/DailyMail для создания сводок CoD.

Затем сводную статистику CoD сравнивали с написанными человеком справочными сводками в виде маркированного списка и с сводками, созданными GPT-4 под обычным запросом, где подсказка звучала так: «Напишите очень краткое изложение статьи, не длиннее 70 слов». (Напишите ОЧЕНЬ краткое содержание статьи. Не превышайте 70 слов).

Ожидаемая длина токена устанавливается в соответствии с длиной токена дайджеста CoD.

статистические результаты

Прямые статистические показатели

Используйте NLTK для подсчета количества токенов, используйте Spacy2 для измерения количества уникальных объектов и расчета коэффициента плотности объектов.

Подсказка CoD сильно ограничивает ожидаемое количество токенов для формирования резюме. Видно, что начиная со второго шага из длинного исходного резюме постепенно удаляются ненужные слова, в результате чего длина текста в среднем уменьшается на 5 токенов ( 72–67).

Плотность сущностей также увеличивается, первоначально на 0,089, что ниже результатов человека и GPT-4 (0,151 и 0,122 соответственно), а после 5 шагов плотность возрастает до 0,167.

Косвенные статистические показатели

Используя плотность извлечения (квадрат средней длины извлеченных фрагментов) для измерения абстрактности текста, ожидается, что текст будет увеличиваться по мере продвижения итераций CoD.

Используйте «количество кратких предложений, сопоставленных с исходным текстом» в качестве индекса слияния концепций, в котором алгоритм выравнивания использует «относительное усиление ROUGE» для выравнивания исходного предложения с целевым предложением до тех пор, пока добавленные дополнительные предложения не перестанут увеличивать относительную ROUGE. Ожидается, что синтез должен постепенно увеличиваться.

Используя «положение краткого содержания в исходном тексте» в качестве индикатора распределения контента (Распределение контента), конкретным методом измерения является средний рейтинг всех согласованных исходных предложений. Ожидается, что резюме CoD изначально будет показывать очевидную предвзятость потенциальных клиентов. , а затем постепенно начинаем двигаться от середины статьи и в заключительной части знакомимся с сущностями.

Статистические результаты также подтвердили правильность ожидаемых результатов: абстракция постепенно увеличивалась по мере процесса переписывания, увеличивалась скорость слияния, аннотация стала интегрироваться в середину и конец статьи.

Кроме того, все сводки CoD более абстрактны, чем рукописные сводки и сводки, созданные на основе базовой модели.

Результаты эксперимента

Чтобы лучше понять недостатки суммирования CoD, мы провели исследование на людях на основе предпочтений и оценку на основе рейтинга с помощью GPT-4.

Оценка человеческих предпочтений

Исследователи сосредоточились на оценке влияния уплотнения на общую оценку массы человека.

В частности, введя 100 статей, вы можете получить «всего 5 шагов*100=500 резюме». Результаты сводки случайным образом отображаются четырем аннотаторам, и на основе сути исходного текста, ясности, тезисов оцениваются по точности и цели. , лаконичный и стильный.

Судя по результатам голосования, наибольшую оценку получил второй шаг CoD.В сочетании с предыдущими экспериментальными результатами средней плотности можно грубо сделать вывод, что люди с большей вероятностью будут выбирать текстовые резюме с плотностью сущностей около 15%, что составляет значительно выше, чем сводка, созданная GPT-4 (плотность объектов 0,122).

Метрики автоматической оценки

Некоторые недавние работы показали, что оценка GPT-4 имеет очень высокую корреляцию с результатами оценки человека и может даже работать лучше, чем краудсорсинговые работники, при выполнении некоторых задач по аннотированию.

В качестве дополнения к ручной оценке исследователи предложили использовать GPT-4 для оценки сводок CoD (1–5) по 5 аспектам: информативность (Informative), качество (Quality), связность (Coherence), атрибуция (Attributable) и в целом.

Используемый шаблон команды:

Статья: Статья Резюме: Резюме Пожалуйста, оцените сводку (от 1 = худшая до 5 = лучшая) по параметру. Определение

Определения каждого показателя следующие:

Информативность. В информативном аннотации можно уловить важную информацию, содержащуюся в статье, и представить ее точно и кратко. (Информативное резюме отражает важную информацию, содержащуюся в статье, и представляет ее точно и кратко.)

**Качество:**Высокое качество резюме понятно. (Высококачественное резюме понятно и понятно.)

Связность. Связный тезис должен быть хорошо структурирован и хорошо организован. (Связное резюме хорошо структурировано и хорошо организовано.)

Атрибуция. Вся ли информация в аннотации полностью связана со статьей? (Вся ли информация в

резюме полностью относится к статье?）

Общее предпочтение: Хорошее резюме должно передавать основные положения статьи кратко, логично и связно. (Хорошее резюме должно передавать основные идеи статьи кратко, логично и связно.)

Экспериментальные результаты показывают, что уплотнение связано с информативностью, но максимальный балл достигается на этапе 4 (4,74); качество и связность снижаются быстрее; все тезисы считаются связанными с исходной статьей; общие оценки имеют тенденцию быть выше. Для более плотных и информативных рефератов , шаг 4 дает лучший результат. В среднем первый и последний этапы CoD пользуются наименьшим предпочтением, тогда как средние три шага близки (4,78, 4,77 и 4,76 соответственно).

Качественный анализ

В ходе итеративного процесса существует компромисс между связностью/читабельностью и информативностью аннотации.

В приведенном выше примере показаны два этапа CoD: один содержит более подробный контент, а другой — более грубый.

В среднем сводки промежуточных шагов CoD обеспечивают лучший баланс, но как точно определить и количественно оценить этот баланс, еще не решено.

Использованная литература:

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков

Награда
1
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
1/3
1Gate Launchpad List IKA
50k Популярность
2ETH Back to $3,800
7k Популярность
3Tariff Deal New Update
6k Популярность
4Stablecoin Regulation
658 Популярность
5Gate ETH 10th Anniversary Celebration
24k Популярность

Закрепить

Карта сайта