Độ chính xác của thông tin văn bản dài vượt xa ChatGPT và Meta đề xuất phương pháp mới để giảm ảo giác về các mô hình lớn

巴比特_

2023-09-24 09:34:58

Nguồn: Qubit

Có một giải pháp mới cho vấn đề ảo giác của các mô hình lớn!

Meta AI Labs đề xuất giải pháp “phân chia và chinh phục”.

Với giải pháp này, độ chính xác của thông tin đầu ra của Llama-65B đã tăng gấp đôi, thậm chí vượt qua ChatGPT.

Cái gọi là ảo tưởng mô hình lớn là đưa ra một số nội dung tưởng chừng như hợp lý nhưng lại hoàn toàn sai lầm.

“Chuỗi xác minh” (CoVe) được Meta đề xuất lần này là một phương pháp chuỗi tương tự như “Chuỗi suy nghĩ” (CoT).

Điểm khác biệt là chuỗi tư duy “từng bước” tập trung nhiều hơn vào lý luận logic, trong khi chuỗi xác minh tập trung nhiều hơn vào thông tin thực tế**.

Sau khi đọc, một số cư dân mạng nhận thấy chuỗi xác minh này rất giống với một phương pháp khoa học khi viết mã bằng ChatGPT:

Vậy chính xác phương pháp "chuỗi xác minh" là gì và "xác minh" là gì?

Giải mã đáp án, chia để trị

Ý tưởng cốt lõi của chuỗi xác minh là chia nhỏ một phần nội dung lớn cần xác minh thành các vấn đề nhỏ, quy trình cụ thể như sau:

Đầu tiên, mô hình tạo ra các câu trả lời như bình thường dựa trên câu hỏi của người dùng.

Sau đó, dựa trên nội dung trả lời đã tạo, một loạt câu hỏi xác minh sẽ được tạo cho từng thông tin.

Sau đó, mô hình được phép tự trả lời các câu hỏi này và các câu trả lời ban đầu được điều chỉnh dựa trên kết quả để đi đến kết quả cuối cùng.

Để đưa ra một ví dụ đơn giản, giả sử bạn muốn hỏi người mẫu nguyên nhân chính của Chiến tranh Mỹ-Mexico trong thế kỷ 19 là gì.

Mô hình trả lời thời điểm sự kiện xảy ra và điều gì đã xảy ra trước đó.

Sau đó, đối với chuỗi sự kiện này, hãy hỏi từng sự kiện một khi chúng xảy ra.

Kết quả, mô hình nhận thấy thời gian của một trong những mục mà nó đề cập quá xa nhau và đã điều chỉnh để đưa ra câu trả lời cuối cùng.

Trong đó, việc tạo và kiểm chứng câu hỏi là khâu quan trọng nhất, về vấn đề này các nhà nghiên cứu đã đề xuất 4 phương pháp cụ thể:

*Chung, nghĩa là viết hướng dẫn tạo câu hỏi và câu trả lời vào cùng một từ gợi ý

2-Bước, nghĩa là trước tiên hãy để mô hình tạo câu hỏi, sau đó mở một cuộc trò chuyện mới (một lần) để trả lời các câu hỏi đã nêu
Phân tích nhân tố, dựa trên 2-Step, mở ra một đoạn hội thoại mới cho mỗi câu hỏi được nêu ra.
Yếu tố+Sửa đổi, thêm thử nghiệm tính nhất quán trên cơ sở Yếu tố, cho phép mô hình tập trung vào nội dung không nhất quán

Bốn chế độ này ngày càng được hoàn thiện hơn và độ chính xác của chúng ngày càng cao hơn.

###### △Bắt đầu từ màu đỏ, bốn màu đại diện cho không có Cove, Joint, Factored và Factor+Revise theo thứ tự

Vậy tại sao việc chia tách câu hỏi có thể cải thiện độ chính xác của mô hình?

Trước hết, vì các câu hỏi tách rời dễ hơn bài tập tổng thể nên các câu hỏi tiểu luận trở thành câu hỏi và câu trả lời hoặc thậm chí là câu hỏi trắc nghiệm và phán đoán. Các câu hỏi đơn giản hơn và tỷ lệ chính xác được cải thiện.

Ngoài ra, việc chia nhỏ vấn đề cho phép mô hình thực sự suy nghĩ lại vấn đề thay vì lặp đi lặp lại câu trả lời sai.

Vậy tác dụng của phương pháp chuỗi xác minh là gì?

Độ chính xác của thông tin vượt quá ChatGPT

Để khám phá vấn đề này, các nhà nghiên cứu đã sử dụng Llama để tiến hành thử nghiệm với tổng cộng ba nhiệm vụ thử nghiệm.

Đầu tiên là liệt kê thông tin, chẳng hạn như liệt kê những người nổi tiếng sinh ra ở một nơi nhất định và làm việc trong một ngành nhất định.

Trong nhiệm vụ này, các nhà nghiên cứu đã thử nghiệm tổng cộng hai bộ dữ liệu - Wikidata đơn giản hơn và danh sách Danh mục Wiki khó hơn (trích từ Wikipedia).

Kết quả cho thấy với sự hỗ trợ của chuỗi xác minh chế độ hai bước của Llama với tham số 65B, độ chính xác của các câu hỏi đơn giản tăng từ 0,17 lên 0,36, hơn gấp đôi** và độ chính xác của các câu hỏi phức tạp cũng tăng gần gấp đôi.

Tiếp theo là câu hỏi "Câu hỏi và trả lời tên miền đóng". Các nhà nghiên cứu đã trích xuất nhiều thông tin không liên tục từ bộ dữ liệu MultiSpanQA và đặt câu hỏi.

Ví dụ: “Ai thành lập nhà xuất bản đầu tiên trên thế giới vào năm nào” (câu trả lời là Johannes Gutenberg, 1450).

Kết quả là Cove cũng mang lại sự cải thiện độ chính xác 20% cho Llama.

Nhiệm vụ thứ ba là "Tạo tiểu sử văn bản dài". Câu hỏi là "Hãy cho tôi biết tiểu sử của (tên người)", được đánh giá bằng cách sử dụng bộ dữ liệu FactScore.

Kết quả là ở chế độ Yếu tố+Đánh giá, tỷ lệ chính xác không chỉ cao hơn đáng kể so với chế độ chuỗi không xác minh mà còn vượt qua ChatGPT.

Các bạn quan tâm đến nghiên cứu này có thể tìm hiểu thêm chi tiết trong bài viết.

Địa chỉ giấy:

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
1/3
1Simple Earn Annual Rate 24.4%
35k Phổ biến
2Gate Launchpad List IKA
40k Phổ biến
3ETH Trading Volume Surges
40k Phổ biến
4Gate ETH 10th Anniversary Celebration
22k Phổ biến
5Trump’s AI Strategy
18k Phổ biến

Ghim

sơ đồ trang web