Jangan gunakan GPT-4 untuk mengekstrak ringkasan teks secara langsung! MIT, Columbia, dll. merilis pengingat "rantai kepadatan" baru: kepadatan fisik adalah kunci kualitas abstrak

2023-10-01 09:13:30

Sumber asli: Xinzhiyuan

Sumber gambar: Dihasilkan oleh AI Tanpa Batas

Setelah ChatGPT dirilis, teknologi pembuatan teks telah berkembang pesat, dan sejumlah besar tugas NLP menghadapi dilema yang harus diatasi sepenuhnya, terutama untuk tugas "ringkasan teks" yang tidak memiliki jawaban standar.

Namun cara memasukkan "sejumlah informasi yang wajar" ke dalam ringkasan masih sangat sulit: ringkasan yang baik harus terperinci dan berpusat pada entitas, bukan padat entitas dan sulit dipahami.

Untuk lebih memahami trade-off antara volume informasi dan pemahaman, para peneliti dari MIT, Universitas Columbia, dan institusi lain telah mengusulkan perintah "Rantai Padat" baru yang dapat digunakan tanpa menambahkan teks abstrak. ringkasan entitas-jarang yang dihasilkan oleh GPT-4 dioptimalkan secara berulang, dan entitas penting yang hilang ditambahkan secara bertahap.

Tautan kertas:

Data sumber terbuka:

Dilihat dari hasil eksperimen, ringkasan yang dihasilkan oleh CoD lebih abstrak dibandingkan ringkasan GPT-4 yang dihasilkan oleh perintah biasa, sehingga menunjukkan lebih banyak fusi dan lebih sedikit bias timbal.

Setelah melakukan studi preferensi manusia terhadap 100 artikel CNN DailyMail, ditemukan bahwa manusia juga lebih cenderung memilih hasil ringkasan dengan entitas yang lebih padat, yaitu serupa dengan kepadatan entitas ringkasan yang ditulis manusia.

Para peneliti membuka 500 abstrak CoD beranotasi dan 5.000 data abstrak tanpa anotasi.

Meningkatkan ringkasan teks secara berulang

petunjuk()

Sasaran tugasnya adalah menggunakan GPT-4 untuk menghasilkan serangkaian ringkasan dengan "tingkat kepadatan informasi berbeda" sekaligus mengontrol panjang teks.

Para peneliti mengusulkan petunjuk Chain of Density (CoD, Chain of Density) untuk menghasilkan ringkasan awal dan secara bertahap membuat entitas semakin padat.

Secara khusus, dalam jumlah putaran iterasi yang tetap, sekumpulan entitas unik dan menonjol dalam teks sumber diidentifikasi dan digabungkan ke dalam ringkasan sebelumnya tanpa menambah panjang teks.

Ringkasan yang dihasilkan pertama kali bersifat renggang, hanya berfokus pada 1-3 entitas awal; untuk mempertahankan panjang teks yang sama sekaligus menambah jumlah entitas yang tercakup, abstraksi, fusi, dan kompresi perlu didorong secara eksplisit. Daripada menghapus ringkasan yang bermakna konten dari ringkasan sebelumnya.

Para peneliti tidak menentukan jenis entitas, tetapi hanya mendefinisikan Entitas yang Hilang sebagai:

**Relevan: **Terkait dengan cerita utama;

Khusus: Deskriptif namun ringkas (5 kata atau kurang);

**Novel: **Tidak muncul di abstrak sebelumnya;

**Setia: **Ada dalam teks asli;

Di mana saja: dapat muncul di mana saja dalam artikel.

Dalam hal pemilihan data, para peneliti secara acak memilih 100 artikel dari kumpulan tes ringkasan CNN/DailyMail untuk menghasilkan ringkasan CoD.

Statistik ringkasan CoD kemudian dibandingkan dengan ringkasan referensi gaya poin-poin yang ditulis manusia dan ringkasan yang dihasilkan oleh GPT-4 di bawah perintah reguler, dengan perintahnya adalah "Tulis ringkasan artikel yang sangat singkat, tidak lebih dari 70 kata" (Tulis ringkasan Artikel yang SANGAT singkat. Tidak melebihi 70 kata).

Panjang token yang diharapkan diatur agar sesuai dengan panjang token intisari CoD.

hasil statistik

Indikator statistik langsung

Gunakan NLTK untuk menghitung jumlah token, gunakan Spacy2 untuk mengukur jumlah entitas unik, dan menghitung rasio kepadatan entitas.

Petunjuk CoD sangat membatasi jumlah token yang diharapkan untuk menghasilkan ringkasan. Terlihat bahwa mulai dari langkah kedua, kata-kata yang tidak perlu secara bertahap dihapus dari ringkasan awal yang panjang, sehingga menghasilkan pengurangan rata-rata panjang teks sebanyak 5 token ( 72 hingga 67).

Kepadatan entitas juga meningkat, awalnya sebesar 0,089, lebih rendah dari hasil manusia dan GPT-4 (masing-masing 0,151 dan 0,122), dan setelah 5 langkah kepadatannya meningkat menjadi 0,167.

Indikator statistik tidak langsung

Dengan menggunakan kepadatan ekstraktif (kuadrat dari panjang rata-rata fragmen yang diekstraksi) untuk mengukur keabstrakan teks, diharapkan teks akan meningkat seiring dengan kemajuan iterasi CoD.

Gunakan "jumlah kalimat ringkasan yang selaras dengan teks sumber" sebagai indeks penggabungan konsep, di mana algoritma penyelarasan menggunakan "penguatan ROUGE relatif" untuk menyelaraskan kalimat sumber dengan kalimat target hingga kalimat tambahan yang ditambahkan tidak lagi meningkatkan perolehan ROUGE relatif .Diharapkan fusi akan meningkat secara bertahap.

Menggunakan "posisi konten ringkasan dalam teks sumber" sebagai indikator distribusi konten (Distribusi Konten), metode pengukuran spesifiknya adalah peringkat rata-rata dari semua kalimat sumber yang selaras. Diharapkan ringkasan CoD pada awalnya akan menunjukkan bias utama yang jelas , dan kemudian secara bertahap mulai berpindah dari tengah artikel dan bagian penutup memperkenalkan entitas.

Hasil statistik juga memverifikasi kebenaran hasil yang diharapkan: abstraksi secara bertahap meningkat seiring dengan proses penulisan ulang, tingkat fusi meningkat, dan abstrak mulai diintegrasikan ke tengah dan akhir artikel.

Dan, semua ringkasan CoD lebih abstrak daripada ringkasan yang ditulis tangan dan dibuat oleh model dasar.

Hasil eksperimen

Untuk lebih memahami manfaat ringkasan CoD, kami melakukan studi pada manusia berdasarkan preferensi dan evaluasi berdasarkan peringkat dengan GPT-4.

Penilaian Preferensi Manusia

Para peneliti fokus pada penilaian dampak densifikasi terhadap penilaian massa manusia secara keseluruhan.

Secara khusus, dengan memasukkan 100 artikel, Anda bisa mendapatkan "total 5 langkah*100=500 ringkasan". Hasil ringkasan ditampilkan secara acak ke empat anotator, dan berdasarkan Esensi, Kejelasan, Abstrak teks asli dievaluasi Akurasi, Tujuan , Ringkas dan Gaya.

Dilihat dari hasil voting, langkah CoD kedua mendapat penilaian tertinggi.Dikombinasikan dengan hasil eksperimen sebelumnya mengenai kepadatan rata-rata, secara kasar dapat disimpulkan bahwa manusia lebih cenderung memilih ringkasan teks dengan kepadatan entitas sekitar 15%, yaitu secara signifikan lebih tinggi daripada ringkasan yang dihasilkan GPT-4 (kepadatan entitas 0,122).

Metrik evaluasi otomatis

Beberapa penelitian terbaru menunjukkan bahwa evaluasi GPT-4 memiliki korelasi yang sangat tinggi dengan hasil evaluasi manusia, dan bahkan mungkin berkinerja lebih baik dibandingkan pekerja crowdsourcing dalam beberapa tugas anotasi.

Sebagai pelengkap evaluasi manual, peneliti mengusulkan penggunaan GPT-4 untuk menilai ringkasan CoD (1-5) dari 5 aspek: informatif (Informative), kualitas (Quality), koherensi (Coherence), dan atribusi (Attributable) dan keseluruhan.

Templat perintah yang digunakan adalah:

Artikel: Artikel Ringkasan: Ringkasan Silakan beri peringkat ringkasan (1=terburuk hingga 5=terbaik) sehubungan dengan Dimensi. Definisi

Definisi dari masing-masing indikator adalah:

Informatif: Abstrak informatif dapat menangkap informasi penting dalam artikel dan menyajikannya secara akurat dan ringkas. (Ringkasan informatif menangkap informasi penting dalam artikel dan menyajikannya secara akurat dan ringkas.)

**Kualitas:**Ringkasan berkualitas tinggi dapat dimengerti. (Ringkasan berkualitas tinggi dapat dipahami dan dimengerti.)

Koherensi: Abstrak yang koheren terstruktur dan terorganisir dengan baik. (Ringkasan yang koheren terstruktur dengan baik dan terorganisir dengan baik.)

Atribusi: Apakah semua informasi dalam abstrak sepenuhnya dikaitkan dengan artikel? (Apakah semua informasi ada di

ringkasan yang sepenuhnya diatribusikan pada Artikel?）

Preferensi Umum: Ringkasan yang baik harus menyampaikan poin-poin utama artikel secara ringkas, logis, dan koheren. (Ringkasan yang baik harus menyampaikan gagasan utama dalam Artikel secara ringkas, logis, dan koheren.)

Hasil eksperimen menunjukkan bahwa densifikasi berkaitan dengan konten informasi, namun skor mencapai puncaknya pada langkah 4 (4,74); kualitas dan koherensi menurun lebih cepat; semua abstrak dianggap dikaitkan dengan artikel sumber; skor keseluruhan cenderung lebih tinggi Untuk ringkasan yang lebih padat dan informatif , langkah 4 mendapat skor terbaik. Rata-rata, langkah CoD pertama dan terakhir adalah yang paling tidak disukai, sedangkan tiga langkah di tengah hampir sama (masing-masing 4,78, 4,77, dan 4,76).

Analisis kualitatif

Ada trade-off antara koherensi/keterbacaan dan keinformatifan abstrak selama proses berulang.

Contoh di atas menunjukkan dua langkah CoD, satu berisi konten yang lebih detail dan satu lagi berisi konten yang lebih kasar.

Rata-rata, ringkasan CoD mengenai langkah-langkah perantara mencapai keseimbangan yang lebih baik, namun bagaimana mendefinisikan dan mengukur keseimbangan ini secara tepat masih belum diketahui.

Referensi:

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka

Hadiah
1
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1Gate Launchpad List IKA
49889 Popularitas
2ETH Back to $3,800
6941 Popularitas
3Tariff Deal New Update
5555 Popularitas
4Stablecoin Regulation
658 Popularitas
5Gate ETH 10th Anniversary Celebration
23293 Popularitas

Sematkan

peta situs