Не використовуйте GPT-4 для безпосереднього отримання текстових підсумків! MIT, Columbia тощо випустили нове нагадування про «ланцюг щільності»: фізична щільність є ключем до абстрактної якості
Після випуску ChatGPT технологія генерації тексту швидко розвинулась, і велика кількість завдань НЛП постала перед дилемою повного подолання, особливо це стосується завдання «резюме тексту», у якому відсутні стандартні відповіді.
Але як включити «розумну кількість інформації» в резюме все ще дуже складно: хороше резюме має бути детальним і зосередженим на сутності, а не щільним і важким для розуміння.
Щоб краще зрозуміти компроміс між обсягом інформації та зрозумілістю, дослідники з Массачусетського технологічного інституту, Колумбійського університету та інших установ запропонували нову підказку «Ланцюжок щільності», яку можна використовувати без додавання абстрактного тексту. entity-sparse резюме, створене GPT-4, ітеративно оптимізується, а відсутні важливі сутності додаються поступово.
Папір посилання:
Дані відкритого джерела:
Судячи з експериментальних результатів, підсумок, створений CoD, є більш абстрактним, ніж підсумок GPT-4, створений звичайними підказками, показуючи більше злиття та меншу упередженість.
Після проведення дослідження переваг людей щодо 100 статей CNN DailyMail можна виявити, що люди також більш схильні вибирати підсумкові результати з щільнішою сутністю, яка подібна до щільності сутностей у резюме, написаних людиною.
Дослідники відкрили 500 анотованих рефератів CoD і 5000 неанотованих рефератів.
Ітераційне покращення резюме тексту
підказка()
Мета завдання полягає в тому, щоб використовувати GPT-4 для створення набору резюме з «різними рівнями щільності інформації», одночасно контролюючи довжину тексту.
Дослідники запропонували підказки ланцюга щільності (CoD, Chain of Density), щоб створити початковий підсумок і поступово робити сутності все щільнішими.
Зокрема, за фіксованої кількості циклів ітерації набір унікальних і помітних об’єктів у вихідному тексті ідентифікується та об’єднується в попередній підсумок без збільшення довжини тексту.
Перше згенероване резюме є розрідженим, зосереджене лише на 1-3 початкових об’єктах; щоб зберегти ту саму довжину тексту, одночасно збільшуючи кількість охоплених об’єктів, необхідно явно заохочувати абстракцію, об’єднання та стиснення. Замість видалення значущих вміст із попереднього резюме.
Дослідники не вказали тип сутності, а просто визначили Missing Entity як:
**Відповідно: **Пов’язано з основною історією;
Конкретний: Описовий, але стислий (5 слів або менше);
**Роман: **Не вказується в попередніх анотаціях;
**Вірний: **Існує в оригінальному тексті;
У будь-якому місці: може з’являтися будь-де в статті.
Що стосується відбору даних, дослідники випадковим чином відібрали 100 статей із підсумкового тестового набору CNN/DailyMail для створення підсумків CoD.
Підсумкову статистику CoD потім порівнювали з довідковими резюме, написаними людиною, і з резюме, згенерованими GPT-4 за стандартною підказкою, де підказкою було «Напишіть дуже короткий виклад статті, не довше ніж 70 слів». (Напишіть ДУЖЕ короткий виклад статті. Не перевищуйте 70 слів).
Очікувана довжина маркера встановлюється відповідно до довжини маркера дайджесту CoD.
статистичні результати
Прямі статистичні показники
Використовуйте NLTK для підрахунку кількості токенів, використовуйте Spacy2 для вимірювання кількості унікальних об’єктів і обчислення коефіцієнта щільності об’єктів.
Підказка CoD значно обмежує очікувану кількість маркерів для генерації резюме. Можна побачити, що, починаючи з другого кроку, непотрібні слова поступово видаляються з довгого початкового резюме, що призводить до середнього зменшення довжини тексту на 5 маркерів ( 72-67).
Щільність сутності також збільшується, спочатку на рівні 0,089, що нижче, ніж результати для людини та GPT-4 (0,151 і 0,122 відповідно), а після 5 кроків щільність підвищується до 0,167.
Непрямі статистичні показники
Використовуючи щільність вилучення (квадрат середньої довжини витягнутих фрагментів) для вимірювання абстрактності тексту, очікується, що текст має зростати в міру просування ітерацій CoD.
Використовуйте «кількість коротких речень, вирівняних із вихідним текстом» як індекс об’єднання понять, у якому алгоритм вирівнювання використовує «відносний посилення ROUGE», щоб узгодити вихідне речення з цільовим реченням, доки додані додаткові речення більше не збільшуватимуть відносний ROUGE Очікується, що термоядерний синтез має поступово зростати.
Використовуючи «позицію короткого вмісту у вихідному тексті» як індикатор розподілу вмісту (Content Distribution), конкретним методом вимірювання є середнє ранжування всіх вирівняних вихідних речень. Очікується, що резюме CoD спочатку покаже очевидне упередження , а потім поступово почніть рухатися від середини статті, а заключна частина вводить сутності.
Статистичні результати також підтвердили правильність очікуваних результатів: абстракція поступово зростала з процесом переписування, швидкість злиття зросла, і анотація почала інтегруватися в середину та кінець статті.
Крім того, усі зведення CoD є більш абстрактними, ніж написані від руки та згенеровані базовою моделлю зведення.
Експериментальні результати
Щоб краще зрозуміти компроміси, пов’язані з узагальненням CoD, ми провели дослідження на основі переваг і оцінку на основі рейтингу за допомогою GPT-4.
Оцінка переваг людини
Дослідники зосередилися на оцінці впливу ущільнення на загальну оцінку маси людини.
Зокрема, ввівши 100 статей, ви можете отримати «5 кроків*100=500 підсумків». Підсумкові результати випадковим чином відображаються чотирьом анотаторам, і на основі оригінального тексту Суть, Чіткість, Анотації оцінюються за Точністю, Ціллю , лаконічність і стиль.
Судячи з результатів голосування, другий крок CoD отримав найвищу оцінку. У поєднанні з попередніми експериментальними результатами середньої щільності можна приблизно зробити висновок, що люди частіше вибирають текстові резюме з щільністю сутності близько 15%, тобто значно вище, ніж згенероване резюме GPT-4 (щільність об’єктів 0,122).
Метрики автоматичної оцінки
Деяка нещодавня робота показала, що оцінка GPT-4 має дуже високу кореляцію з результатами людської оцінки, і навіть може працювати краще, ніж краудсорсингові працівники для деяких завдань анотації.
Як доповнення до ручної оцінки дослідники запропонували використовувати GPT-4 для оцінювання підсумків CoD (1-5) за 5 аспектами: інформативність (Informative), якість (Quality), узгодженість (Coherence) і атрибуція (Attributable) і загальний.
Використовується такий шаблон команди:
Стаття: ст
Резюме: Резюме
Будь ласка, оцініть підсумок (від 1=найгірший до 5=найкращий) щодо Dimension.
Визначення
Визначення кожного показника:
Інформативність: інформативна анотація може охопити важливу інформацію в статті та представити її точно й лаконічно. (Інформативне резюме фіксує важливу інформацію в статті та подає її точно й лаконічно.)
**Якість:**Резюме високої якості зрозуміле. (Якісне резюме є зрозумілим і зрозумілим.)
Послідовність: послідовна анотація добре структурована та організована. (Звязне резюме добре структуроване та організоване.)
Посилання на джерело: Чи вся інформація в анотації повністю пов’язана зі статтею? (Чи вся інформація в
резюме повністю відноситься до статті?)
Загальні переваги: Гарне резюме має викладати основні положення статті стисло, логічно та зв’язно. (Хороше резюме має викладати основні ідеї статті стисло, логічно та зв’язно.)
Експериментальні результати показують, що ущільнення пов’язане з інформаційним вмістом, але максимальна оцінка досягається на кроці 4 (4,74); якість і узгодженість знижуються швидше; усі анотації вважаються пов’язаними з вихідною статтею; загальні бали мають тенденцію бути вищими Для більш щільних і інформативних резюме , крок 4 має найкращі результати. У середньому перший і останній кроки CoD є найменш сприятливими, тоді як середні три кроки близькі (4,78, 4,77 і 4,76 відповідно).
Якісний аналіз
Під час ітераційного процесу існує компроміс між зв’язністю/читабельністю та інформативністю анотації.
Наведений вище приклад показує два кроки CoD, один із більш детальним вмістом, а інший із більш грубим вмістом.
У середньому підсумки проміжних кроків CoD забезпечують кращий баланс, але як точно визначити та кількісно оцінити цей баланс ще не розроблено.
Література:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Не використовуйте GPT-4 для безпосереднього отримання текстових підсумків! MIT, Columbia тощо випустили нове нагадування про «ланцюг щільності»: фізична щільність є ключем до абстрактної якості
Перше джерело: Xinzhiyuan
Після випуску ChatGPT технологія генерації тексту швидко розвинулась, і велика кількість завдань НЛП постала перед дилемою повного подолання, особливо це стосується завдання «резюме тексту», у якому відсутні стандартні відповіді.
Але як включити «розумну кількість інформації» в резюме все ще дуже складно: хороше резюме має бути детальним і зосередженим на сутності, а не щільним і важким для розуміння.
Щоб краще зрозуміти компроміс між обсягом інформації та зрозумілістю, дослідники з Массачусетського технологічного інституту, Колумбійського університету та інших установ запропонували нову підказку «Ланцюжок щільності», яку можна використовувати без додавання абстрактного тексту. entity-sparse резюме, створене GPT-4, ітеративно оптимізується, а відсутні важливі сутності додаються поступово.
Дані відкритого джерела:
Судячи з експериментальних результатів, підсумок, створений CoD, є більш абстрактним, ніж підсумок GPT-4, створений звичайними підказками, показуючи більше злиття та меншу упередженість.
Дослідники відкрили 500 анотованих рефератів CoD і 5000 неанотованих рефератів.
Ітераційне покращення резюме тексту
підказка()
Мета завдання полягає в тому, щоб використовувати GPT-4 для створення набору резюме з «різними рівнями щільності інформації», одночасно контролюючи довжину тексту.
Дослідники запропонували підказки ланцюга щільності (CoD, Chain of Density), щоб створити початковий підсумок і поступово робити сутності все щільнішими.
Зокрема, за фіксованої кількості циклів ітерації набір унікальних і помітних об’єктів у вихідному тексті ідентифікується та об’єднується в попередній підсумок без збільшення довжини тексту.
Дослідники не вказали тип сутності, а просто визначили Missing Entity як:
**Відповідно: **Пов’язано з основною історією;
Конкретний: Описовий, але стислий (5 слів або менше);
**Роман: **Не вказується в попередніх анотаціях;
**Вірний: **Існує в оригінальному тексті;
У будь-якому місці: може з’являтися будь-де в статті.
Що стосується відбору даних, дослідники випадковим чином відібрали 100 статей із підсумкового тестового набору CNN/DailyMail для створення підсумків CoD.
Підсумкову статистику CoD потім порівнювали з довідковими резюме, написаними людиною, і з резюме, згенерованими GPT-4 за стандартною підказкою, де підказкою було «Напишіть дуже короткий виклад статті, не довше ніж 70 слів». (Напишіть ДУЖЕ короткий виклад статті. Не перевищуйте 70 слів).
Очікувана довжина маркера встановлюється відповідно до довжини маркера дайджесту CoD.
статистичні результати
Прямі статистичні показники
Використовуйте NLTK для підрахунку кількості токенів, використовуйте Spacy2 для вимірювання кількості унікальних об’єктів і обчислення коефіцієнта щільності об’єктів.
Щільність сутності також збільшується, спочатку на рівні 0,089, що нижче, ніж результати для людини та GPT-4 (0,151 і 0,122 відповідно), а після 5 кроків щільність підвищується до 0,167.
Непрямі статистичні показники
Використовуючи щільність вилучення (квадрат середньої довжини витягнутих фрагментів) для вимірювання абстрактності тексту, очікується, що текст має зростати в міру просування ітерацій CoD.
Використовуйте «кількість коротких речень, вирівняних із вихідним текстом» як індекс об’єднання понять, у якому алгоритм вирівнювання використовує «відносний посилення ROUGE», щоб узгодити вихідне речення з цільовим реченням, доки додані додаткові речення більше не збільшуватимуть відносний ROUGE Очікується, що термоядерний синтез має поступово зростати.
Використовуючи «позицію короткого вмісту у вихідному тексті» як індикатор розподілу вмісту (Content Distribution), конкретним методом вимірювання є середнє ранжування всіх вирівняних вихідних речень. Очікується, що резюме CoD спочатку покаже очевидне упередження , а потім поступово почніть рухатися від середини статті, а заключна частина вводить сутності.
Крім того, усі зведення CoD є більш абстрактними, ніж написані від руки та згенеровані базовою моделлю зведення.
Експериментальні результати
Щоб краще зрозуміти компроміси, пов’язані з узагальненням CoD, ми провели дослідження на основі переваг і оцінку на основі рейтингу за допомогою GPT-4.
Оцінка переваг людини
Дослідники зосередилися на оцінці впливу ущільнення на загальну оцінку маси людини.
Зокрема, ввівши 100 статей, ви можете отримати «5 кроків*100=500 підсумків». Підсумкові результати випадковим чином відображаються чотирьом анотаторам, і на основі оригінального тексту Суть, Чіткість, Анотації оцінюються за Точністю, Ціллю , лаконічність і стиль.
Деяка нещодавня робота показала, що оцінка GPT-4 має дуже високу кореляцію з результатами людської оцінки, і навіть може працювати краще, ніж краудсорсингові працівники для деяких завдань анотації.
Як доповнення до ручної оцінки дослідники запропонували використовувати GPT-4 для оцінювання підсумків CoD (1-5) за 5 аспектами: інформативність (Informative), якість (Quality), узгодженість (Coherence) і атрибуція (Attributable) і загальний.
Використовується такий шаблон команди:
Визначення кожного показника:
Інформативність: інформативна анотація може охопити важливу інформацію в статті та представити її точно й лаконічно. (Інформативне резюме фіксує важливу інформацію в статті та подає її точно й лаконічно.)
**Якість:**Резюме високої якості зрозуміле. (Якісне резюме є зрозумілим і зрозумілим.)
Послідовність: послідовна анотація добре структурована та організована. (Звязне резюме добре структуроване та організоване.)
Посилання на джерело: Чи вся інформація в анотації повністю пов’язана зі статтею? (Чи вся інформація в
резюме повністю відноситься до статті?)
Загальні переваги: Гарне резюме має викладати основні положення статті стисло, логічно та зв’язно. (Хороше резюме має викладати основні ідеї статті стисло, логічно та зв’язно.)
Якісний аналіз
Під час ітераційного процесу існує компроміс між зв’язністю/читабельністю та інформативністю анотації.
У середньому підсумки проміжних кроків CoD забезпечують кращий баланс, але як точно визначити та кількісно оцінити цей баланс ще не розроблено.
Література: