Không sử dụng GPT-4 để trích xuất trực tiếp các bản tóm tắt văn bản! MIT, Columbia, v.v. đã đưa ra lời nhắc nhở về "chuỗi mật độ" mới: mật độ vật lý là chìa khóa cho chất lượng trừu tượng

2023-10-01 09:13:30

Nguồn gốc: Xinzhiyuan

Nguồn hình ảnh: Được tạo bởi AI không giới hạn

Sau khi ChatGPT ra mắt, công nghệ tạo văn bản đã phát triển nhanh chóng và một số lượng lớn nhiệm vụ NLP đang phải đối mặt với tình thế khó xử lý hoàn toàn, đặc biệt là đối với nhiệm vụ “tóm tắt văn bản” thiếu câu trả lời chuẩn.

Nhưng làm thế nào để đưa một “lượng thông tin hợp lý” vào một bản tóm tắt vẫn rất khó: một bản tóm tắt tốt phải chi tiết và tập trung vào thực thể, không dày đặc và khó hiểu.

Để hiểu rõ hơn về sự cân bằng giữa khối lượng thông tin và mức độ dễ hiểu, các nhà nghiên cứu từ MIT, Đại học Columbia và các tổ chức khác đã đề xuất một lời nhắc "Chuỗi dày đặc" mới có thể được sử dụng mà không cần thêm văn bản trừu tượng. bản tóm tắt thưa thớt thực thể do GPT-4 tạo ra được tối ưu hóa lặp đi lặp lại và các thực thể quan trọng còn thiếu sẽ dần dần được thêm vào.

Liên kết giấy:

Dữ liệu nguồn mở:

Đánh giá từ các kết quả thử nghiệm, bản tóm tắt do CoD tạo ra trừu tượng hơn bản tóm tắt GPT-4 được tạo bởi các lời nhắc thông thường, cho thấy sự hợp nhất hơn và ít sai lệch chì hơn.

Sau khi tiến hành nghiên cứu sở thích của con người trên 100 bài báo của CNN DailyMail, có thể thấy rằng con người cũng có xu hướng chọn kết quả tóm tắt với các thực thể dày đặc hơn, tương tự như mật độ thực thể trong các bản tóm tắt do con người viết.

Các nhà nghiên cứu đã mở nguồn 500 bản tóm tắt CoD có chú thích và 5.000 dữ liệu trừu tượng không được chú thích.

Liên tục cải thiện khả năng tóm tắt văn bản

gợi ý()

Mục tiêu của nhiệm vụ là sử dụng GPT-4 để tạo một tập hợp các bản tóm tắt với "mức độ mật độ thông tin khác nhau" đồng thời kiểm soát độ dài của văn bản.

Các nhà nghiên cứu đã đề xuất gợi ý Chuỗi mật độ (CoD, Chuỗi mật độ) để tạo ra bản tóm tắt ban đầu và dần dần làm cho các thực thể ngày càng dày đặc hơn.

Cụ thể, theo một số vòng lặp cố định, một tập hợp các thực thể duy nhất và nổi bật trong văn bản nguồn được xác định và hợp nhất vào bản tóm tắt trước đó mà không làm tăng độ dài văn bản.

Bản tóm tắt được tạo đầu tiên là thực thể thưa thớt, chỉ tập trung vào 1-3 thực thể ban đầu, để duy trì cùng độ dài văn bản trong khi tăng số lượng thực thể được đề cập, việc trừu tượng hóa, hợp nhất và nén cần phải được khuyến khích một cách rõ ràng. nội dung từ bản tóm tắt trước đó.

Các nhà nghiên cứu không chỉ rõ loại thực thể mà chỉ xác định đơn giản Thực thể bị thiếu là:

**Liên quan: **Liên quan đến câu chuyện chính;

Cụ thể: Mang tính mô tả nhưng ngắn gọn (5 từ trở xuống);

**Tiểu thuyết: **Không xuất hiện trong các bản tóm tắt trước đó;

**Trung thành: **Tồn tại trong văn bản gốc;

Mọi nơi: có thể xuất hiện ở bất cứ đâu trong bài viết.

Về mặt lựa chọn dữ liệu, các nhà nghiên cứu đã chọn ngẫu nhiên 100 bài báo từ bộ thử nghiệm tóm tắt CNN/DailyMail để tạo ra các bản tóm tắt CoD.

Sau đó, số liệu thống kê tóm tắt CoD được so sánh với các bản tóm tắt tham chiếu kiểu dấu đầu dòng do con người viết và các bản tóm tắt do GPT-4 tạo ra theo lời nhắc thông thường, trong đó lời nhắc là "Viết một bản tóm tắt rất ngắn gọn về bài viết, không dài quá 70 từ" ( Viết một bản tóm tắt RẤT ngắn về bài viết. Không vượt quá 70 từ).

Độ dài mã thông báo dự kiến được đặt để khớp với độ dài mã thông báo của thông báo CoD.

kết quả thống kê

Chỉ số thống kê trực tiếp

Sử dụng NLTK để đếm số lượng mã thông báo, sử dụng Spacy2 để đo số lượng thực thể duy nhất và tính tỷ lệ mật độ thực thể.

Lời nhắc CoD hạn chế rất nhiều số lượng mã thông báo dự kiến để tạo bản tóm tắt. Có thể thấy rằng bắt đầu từ bước thứ hai, các từ không cần thiết sẽ dần bị loại bỏ khỏi bản tóm tắt dài dòng ban đầu, dẫn đến độ dài văn bản giảm trung bình là 5 mã thông báo ( 72 đến 67) .

Mật độ thực thể cũng tăng lên, ban đầu là 0,089, thấp hơn so với kết quả của con người và GPT-4 (lần lượt là 0,151 và 0,122), và sau 5 bước, mật độ tăng lên 0,167.

Chỉ số thống kê gián tiếp

Sử dụng mật độ trích xuất (bình phương độ dài trung bình của các đoạn được trích xuất) để đo tính trừu tượng của văn bản, người ta hy vọng rằng văn bản sẽ tăng lên khi tiến trình lặp lại CoD.

Sử dụng “số lượng câu tóm tắt được căn chỉnh với văn bản nguồn” làm chỉ số tổng hợp khái niệm, trong đó thuật toán căn chỉnh sử dụng “ROUGE tăng tương đối” để căn chỉnh câu nguồn với câu đích cho đến khi các câu bổ sung được thêm vào sẽ không còn làm tăng ROUGE tương đối đạt được. Dự kiến phản ứng tổng hợp sẽ tăng dần.

Sử dụng "vị trí của nội dung tóm tắt trong văn bản nguồn" làm chỉ báo phân bổ nội dung (Phân phối nội dung), phương pháp đo lường cụ thể là thứ hạng trung bình của tất cả các câu nguồn được căn chỉnh. Dự kiến, bản tóm tắt CoD ban đầu sẽ thể hiện sai lệch khách hàng tiềm năng rõ ràng , rồi bắt đầu chuyển dần từ giữa bài và phần kết luận giới thiệu các thực thể.

Kết quả thống kê cũng xác minh tính đúng đắn của kết quả mong đợi: tính trừu tượng tăng dần theo quá trình viết lại, tốc độ hợp nhất tăng lên và phần tóm tắt bắt đầu được lồng ghép vào giữa và cuối bài.

Và tất cả các bản tóm tắt CoD đều trừu tượng hơn các bản tóm tắt viết tay và do mô hình cơ sở tạo ra.

Kết quả thực nghiệm

Để hiểu rõ hơn về sự cân bằng của việc tóm tắt CoD, chúng tôi đã tiến hành nghiên cứu dựa trên sở thích của con người và đánh giá dựa trên xếp hạng bằng GPT-4.

Đánh giá sở thích con người

Các nhà nghiên cứu tập trung vào việc đánh giá tác động của mật độ lên việc đánh giá khối lượng tổng thể của con người.

Cụ thể, khi nhập 100 bài viết, bạn có thể nhận được "Tổng cộng 5 bước*100=500 tóm tắt". Kết quả tóm tắt được hiển thị ngẫu nhiên cho bốn người chú thích và dựa trên Bản chất, Sự rõ ràng, Tóm tắt của văn bản gốc được đánh giá về Độ chính xác, Mục đích , Ngắn gọn và phong cách.

Đánh giá từ kết quả bình chọn, bước CoD thứ hai nhận được đánh giá cao nhất. Kết hợp với các kết quả thử nghiệm trước đó về mật độ trung bình, có thể suy ra một cách đại khái rằng con người có nhiều khả năng chọn các bản tóm tắt văn bản có mật độ thực thể khoảng 15%, tức là cao hơn đáng kể so với bản tóm tắt được tạo bởi GPT-4 (mật độ thực thể 0,122).

Số liệu đánh giá tự động

Một số công việc gần đây đã chứng minh rằng đánh giá của GPT-4 có mối tương quan rất cao với kết quả đánh giá của con người và thậm chí có thể hoạt động tốt hơn so với các nhân viên cung cấp dịch vụ cộng đồng trong một số nhiệm vụ chú thích.

Để bổ sung cho đánh giá thủ công, các nhà nghiên cứu đã đề xuất sử dụng GPT-4 để xếp hạng các bản tóm tắt CoD (1-5) từ 5 khía cạnh: thông tin (Thông tin), chất lượng (Chất lượng), tính mạch lạc (Mạch lạc) và phân bổ (Có thể phân bổ) và tổng thể.

Mẫu lệnh được sử dụng là:

Bài viết: Bài viết Tóm tắt: Tóm tắt Vui lòng đánh giá tóm tắt (1=tệ nhất đến 5=tốt nhất) về Thứ nguyên. Định nghĩa

Định nghĩa của từng chỉ số là:

Thông tin: Một bản tóm tắt giàu thông tin có thể nắm bắt được thông tin quan trọng trong bài viết và trình bày nó một cách chính xác và ngắn gọn. (Một bản tóm tắt đầy thông tin nắm bắt được thông tin quan trọng trong bài viết và trình bày nó một cách chính xác và ngắn gọn.)

**Chất lượng:**Các bản tóm tắt chất lượng cao có thể hiểu được. (Bản tóm tắt chất lượng cao là dễ hiểu và dễ hiểu.)

Mạch lạc: Một bản tóm tắt mạch lạc có cấu trúc và tổ chức tốt. (Một bản tóm tắt mạch lạc có cấu trúc và tổ chức tốt.)

** Ghi công:** Tất cả thông tin trong bản tóm tắt có được ghi nhận đầy đủ cho bài viết không? (Có phải tất cả thông tin trong

bản tóm tắt hoàn toàn có thể quy cho bài viết?)

Ưu tiên chung: Một bản tóm tắt tốt phải truyền tải những điểm chính của bài viết một cách ngắn gọn, logic và mạch lạc. (Một bản tóm tắt tốt sẽ truyền tải các ý chính trong Bài viết một cách ngắn gọn, hợp lý và mạch lạc.)

Kết quả thực nghiệm cho thấy mật độ hóa có liên quan đến nội dung thông tin, nhưng điểm đạt cao nhất ở bước 4 (4,74); chất lượng và tính mạch lạc giảm nhanh hơn; tất cả các phần tóm tắt đều được coi là quy cho bài viết nguồn; điểm tổng thể có xu hướng cao hơn. , bước 4 đạt điểm cao nhất. Trung bình, các bước CoD đầu tiên và cuối cùng ít được ưa chuộng nhất, trong khi ba bước giữa gần bằng nhau (lần lượt là 4,78, 4,77 và 4,76).

Phân tích định tính

Có sự cân bằng giữa tính mạch lạc/khả năng đọc và tính thông tin của phần tóm tắt trong quá trình lặp lại.

Ví dụ trên hiển thị hai bước CoD, một bước chứa nội dung chi tiết hơn và một bước chứa nội dung thô hơn.

Trung bình, tóm tắt CoD của các bước trung gian đạt được sự cân bằng tốt hơn, nhưng làm thế nào để xác định và định lượng chính xác sự cân bằng này vẫn chưa được nghiên cứu.

Người giới thiệu:

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích

Phần thưởng
1
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
1/3
1Gate Launchpad List IKA
50k Phổ biến
2ETH Back to $3,800
7k Phổ biến
3Tariff Deal New Update
6k Phổ biến
4Stablecoin Regulation
658 Phổ biến
5Gate ETH 10th Anniversary Celebration
24k Phổ biến

Ghim

sơ đồ trang web