DeepMind: Các mô hình lớn cũng tiếp xúc với những sai sót lớn và không thể tự sửa chữa lý luận của họ, trừ khi câu trả lời đúng được biết trước

2023-10-23 01:58:10

Nguồn gốc: Shin Ji Yuan

Các nhà nghiên cứu > DeepMind phát hiện ra rằng LLM có một lỗ hổng cố hữu - nó không thể có được phản ứng tốt hơn bằng cách tự sửa chữa trong quá trình suy luận trừ khi nhãn sự thật được đặt trước trong tập dữ liệu. Marcus vui vẻ chuyển tiếp tờ giấy một lần nữa.

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Một lỗ hổng lớn khác của mô hình ngôn ngữ lớn đã được phơi bày bởi DeepMind!

LLM không thể sửa lỗi trong lý luận riêng của mình.

Tự sửa, một kỹ thuật cho phép các mô hình sửa câu trả lời của chính họ, có thể cải thiện đáng kể chất lượng đầu ra của mô hình trong nhiều loại nhiệm vụ.

Nhưng gần đây, các nhà nghiên cứu tại Google DeepMind và UIUC phát hiện ra rằng "cơ chế tự điều chỉnh" của LLM đột nhiên vô dụng đối với các nhiệm vụ lý luận.

Hơn nữa, LLM không chỉ không thể tự sửa câu trả lời cho các nhiệm vụ lý luận, mà thường tự sửa, chất lượng câu trả lời cũng sẽ giảm đáng kể.

Marcus cũng đã tweet lại bài báo, hy vọng sẽ thu hút sự chú ý của nhiều nhà nghiên cứu hơn về lỗ hổng này của mô hình ngôn ngữ lớn.

Kỹ thuật "tự sửa" dựa trên ý tưởng đơn giản là cho phép LLM sửa chữa và cải thiện nội dung được tạo theo các tiêu chí nhất định. Phương pháp này có thể cải thiện đáng kể chất lượng đầu ra của mô hình trong các nhiệm vụ như các vấn đề toán học.

Nhưng các nhà nghiên cứu phát hiện ra rằng trong nhiệm vụ lý luận, phản hồi sau khi tự sửa đôi khi rất tốt, đôi khi hiệu quả rất kém, và thậm chí hiệu suất giảm.

Các nhà nghiên cứu cũng nghiên cứu các tài liệu tin rằng "tự điều chỉnh" có thể cải thiện đầu ra lý luận, và khi kiểm tra kỹ hơn, thấy rằng sự cải thiện của "tự sửa chữa" đến từ việc giới thiệu thông tin bên ngoài để hướng dẫn mô hình tự sửa chữa. Và khi thông tin bên ngoài không được giới thiệu, những cải tiến này sẽ biến mất.

Cụ thể, tự sửa lỗi hoạt động hiệu quả khi mô hình có quyền truy cập vào các nhãn sự thật cơ bản có trong tập dữ liệu chuẩn.

Điều này là do thuật toán có thể xác định chính xác khi nào dừng quá trình suy luận và tránh thay đổi câu trả lời khi nó đã đúng.

Các nhà nghiên cứu tin rằng nhãn thật có xu hướng được sử dụng trong các nghiên cứu trước đây để ngăn chặn các mô hình thay đổi câu trả lời đúng thành câu trả lời sai. Nhưng làm thế nào để ngăn chặn tình trạng "sửa sai" này thực sự là chìa khóa để đảm bảo sự thành công của việc tự sửa chữa.

Bởi vì khi các nhà nghiên cứu loại bỏ nhãn thật khỏi quá trình tự điều chỉnh, hiệu suất của mô hình giảm đáng kể.

Như một nỗ lực để cải thiện cách tiếp cận tự điều chỉnh của LLM đối với các nhiệm vụ lý luận, các nhà nghiên cứu cũng khám phá tiềm năng của "cuộc tranh luận đa tác nhân" như một phương tiện để cải thiện lý luận. Tuy nhiên, kết quả của họ cho thấy phương pháp này hoạt động không tốt hơn so với tính nhất quán khi xem xét số lượng phản hồi bằng nhau.

Các nhà nghiên cứu tiếp tục đề xuất các khái niệm "nhắc trước" và "sau nhắc nhở".

Họ coi việc tự sửa lỗi là một hình thức nhắc nhở sau hoc, trong đó lời nhắc khắc phục được nhập sau phản hồi của LLM.

Phân tích của các nhà nghiên cứu cho thấy rằng việc tăng cường tự điều chỉnh trong một số nhiệm vụ có thể xuất phát từ lời nhắc phản hồi được thiết kế tốt che giấu những lời nhắc ban đầu thô thiển.

Trong trường hợp này, việc tích hợp phản hồi tốt hơn vào các hướng dẫn ban đầu hoặc thiết kế lời nhắc ban đầu tốt hơn có thể mang lại kết quả tốt hơn và giảm chi phí suy luận.

Dựa trên những phát hiện của các nhà nghiên cứu, các nhà nghiên cứu đã đi sâu vào các sắc thái của khả năng tự điều chỉnh của LLM, thúc giục cộng đồng nghiên cứu tiếp cận nghiên cứu tự điều chỉnh với sự nghiêm ngặt hơn.

Các mô hình ngôn ngữ lớn có thể tự sửa chữa lý luận của họ không? **

Các nhà nghiên cứu đã cố gắng thực hiện phương pháp tự điều chỉnh hiện có, sử dụng thiết lập của nó (sử dụng nhãn để hướng dẫn quá trình tự điều chỉnh) để kiểm tra hiệu quả của nó trong việc cải thiện hiệu suất đối với các nhiệm vụ lý luận LLM.

Thiết lập thử nghiệm

Lời nhắc nhở

Các nhà nghiên cứu đã sử dụng chiến lược gợi ý ba bước để tự điều chỉnh:

nhắc nhở mô hình cho thế hệ ban đầu (đây cũng là kết quả của lời nhắc tiêu chuẩn);
nhắc mô hình xem xét thế hệ trước của nó và tạo phản hồi;
Trả lời lại câu hỏi ban đầu thông qua mô hình nhắc nhở phản hồi.

Mẫu

Thử nghiệm chính của các nhà nghiên cứu được thực hiện trên GPT-3.5-Turbo.

Các nhà nghiên cứu cũng đã thử nghiệm GPT-4, truy cập vào ngày 29 tháng 8 năm 2023, với mục đích kiểm tra khả năng tự điều chỉnh của các lần lặp lại mới nhất và mạnh mẽ nhất của các mô hình OpenAI.

Đối với GPT-3.5, các nhà nghiên cứu đã sử dụng toàn bộ các đánh giá được đề cập trước đó. Đối với GPT-4, để giảm chi phí, các nhà nghiên cứu đã lấy mẫu ngẫu nhiên 200 câu hỏi cho mỗi bộ dữ liệu (100 câu hỏi cho HotpotQA) để thử nghiệm.

Kết quả và phản ánh

Trong khi các nhà nghiên cứu không sử dụng bất kỳ nguồn lực hoặc công cụ bên ngoài nào trong các thí nghiệm của họ, các nhà nghiên cứu đã theo dõi công việc trước đó, sử dụng nhãn sự thật để xác định khi nào nên dừng chu kỳ tự điều chỉnh.

Nhưng trong thế giới thực, đặc biệt là khi các nhà nghiên cứu có ý định giải quyết các vấn đề toán học với LLM, hầu hết thời gian câu trả lời đúng không được biết đến.

Do đó, việc cải thiện hiệu suất cần được xem xét cẩn thận hơn.

Để xác nhận ý tưởng này, các nhà nghiên cứu đã thiết kế một đường cơ sở dựa trên các dự đoán ngẫu nhiên. Trong đường cơ sở này, các nhà nghiên cứu tiếp tục sử dụng nhãn sự thật để xác định khi nào nên dừng lại; Tuy nhiên, các hành động khắc phục không được thực hiện bởi LLM, mà dựa trên dự đoán ngẫu nhiên của các tùy chọn còn lại.

CommonSenseQA là một bộ dữ liệu câu hỏi trắc nghiệm cung cấp năm tùy chọn ứng cử viên cho mỗi câu hỏi.

Nếu độ chính xác thế hệ của vòng thứ k (thế hệ ban đầu là vòng 0) được biểu thị bằng x, độ chính xác dự kiến của các bản dựng tiếp theo sẽ trở thành x + (1 − x)/(5 − k).

Kết quả của đường cơ sở ngẫu nhiên này được trình bày trong Bảng 2 ở trên.

Sau 2 vòng, hiệu suất của nó tương đương hoặc thậm chí tốt hơn so với tự hiệu chuẩn, và sau 4 vòng, độ chính xác của nó đạt 100%.

Tuy nhiên, rõ ràng là một đường cơ sở ngẫu nhiên như vậy không thể được coi là một phương pháp điều chỉnh hiệu quả. Tuy nhiên, kết quả thu được bằng cách sử dụng nhãn có thể hoạt động như một lời tiên tri, chỉ ra rằng có những người xác minh hoàn hảo có thể đánh giá tính chính xác của câu trả lời.

Trong các nhiệm vụ như tạo mã, điều này là khả thi vì các nhà nghiên cứu có thể sử dụng các trình thực thi và kiểm tra đơn vị để xác định xem mã được tạo có chạy thành công hay không (Chen et al., 2023b).

Tuy nhiên, đối với các nhiệm vụ lý luận, chẳng hạn như giải quyết các vấn đề toán học, thiết lập này có vẻ phản trực giác. Nếu các nhà nghiên cứu đã có sự thật, dường như không có lý do gì để sử dụng LLM để giải quyết vấn đề.

Tự điều chỉnh nội tại

Đối với GSM8K, một đường cơ sở ngẫu nhiên tương tự có thể không tồn tại, nhưng lý do vẫn giữ nguyên.

Ngoài ra, các nhà nghiên cứu có thể thiết kế một đường cơ sở, chẳng hạn như tạo ra các số ngẫu nhiên tại một thời điểm. Sau một vài vòng, nó có thể nhận được câu trả lời đúng, nhưng một cải tiến như vậy rõ ràng không có ý nghĩa. Lý do trực tiếp hơn: Tại sao các nhà nghiên cứu sẽ làm điều này nếu họ đã biết câu trả lời?

Thiết lập thử nghiệm được xác định trước đó. Để đạt được điều này, các nhà nghiên cứu chỉ cần loại bỏ nhãn sử dụng để xác định khi nào nên dừng lại và đánh giá hiệu suất thông qua hai vòng tự điều chỉnh.

Bảng 3 ở trên cho thấy độ chính xác và số lượng cuộc gọi mô hình. Các nhà nghiên cứu quan sát thấy rằng sau khi tự điều chỉnh, hiệu suất của mô hình bị suy giảm trên tất cả các điểm chuẩn.

Tại sao hiệu suất giảm sút?

Hình 1 ở trên tóm tắt kết quả của sự thay đổi câu trả lời sau hai vòng tự sửa lỗi bằng GPT-3.5 và hai ví dụ được hiển thị trong Hình 2 bên dưới.

Đối với GSM8K, mô hình vẫn giữ nguyên câu trả lời ban đầu với xác suất 74,7%. Trong các trường hợp còn lại, mô hình có nhiều khả năng sửa đổi câu trả lời đúng thành câu trả lời sai hơn là sửa đổi câu trả lời sai thành câu trả lời đúng.

Đối với CommonSenseQA, GPT-3.5 có nhiều khả năng thay đổi câu trả lời của nó. Lý do chính cho điều này là các tùy chọn trả lời sai trong CommonSenseQA thường có vẻ hơi liên quan đến câu hỏi và việc sử dụng các gợi ý tự sửa có thể làm sai lệch mô hình có lợi cho việc chọn một tùy chọn khác, dẫn đến tỷ lệ "lỗi ⇒ đúng" cao.

Hãy để các nhà nghiên cứu xem xét lại các kết quả được hiển thị trong Bảng 1 ở trên. Những kết quả này sử dụng nhãn sự thật để ngăn mô hình thay đổi câu trả lời đúng thành câu trả lời sai.

Tuy nhiên, làm thế nào để ngăn chặn "lỗi sửa chữa" này thực sự là chìa khóa để đảm bảo sự thành công của việc tự sửa chữa.

Lời giải thích trực quan là nếu mô hình khớp với lời nhắc ban đầu được thiết kế tốt, sau đó đưa ra lời nhắc và thuật toán giải mã cụ thể, phản hồi ban đầu sẽ là tối ưu.

Giới thiệu phản hồi có thể được coi là thêm các gợi ý bổ sung có thể làm sai lệch mô hình trong việc tạo ra các phản hồi phù hợp với sự kết hợp đầu vào đó.

Trong cài đặt tự sửa lỗi nội tại, trong nhiệm vụ suy luận, lời nhắc bổ sung này có thể không cung cấp bất kỳ lợi thế bổ sung nào để trả lời câu hỏi.

Trên thực tế, nó thậm chí có thể làm chệch mô hình khỏi việc tạo ra phản hồi tốt nhất cho lời nhắc ban đầu, dẫn đến hiệu suất bị suy giảm.

Người ta có thể tự hỏi, có phải các tín hiệu tự điều chỉnh được thử nghiệm bởi các nhà nghiên cứu không lý tưởng?

Các mẹo khác có thể cải thiện hiệu suất không? Câu trả lời là: các nhà nghiên cứu hoàn toàn có thể tìm thấy một gợi ý giúp tăng cường hiệu suất của mô hình trên một điểm chuẩn cụ thể. Tuy nhiên, điều này không còn phù hợp với thiết lập tự điều chỉnh nội tại được thảo luận trong bài viết này, tương tự như thảo luận về thiết lập ít mẫu thực sự.

Tìm kiếm này về cơ bản tận dụng phản hồi từ con người hoặc các ví dụ đào tạo. Ngoài ra, chiến lược tương tự có thể được áp dụng hiệu quả để tối ưu hóa các gợi ý ban đầu, có khả năng đạt được hiệu suất tốt hơn mà không cần thêm các cuộc gọi mô hình để tự sửa chữa.

Trong Phụ lục B, các nhà nghiên cứu đã thử nghiệm các mẹo khác nhau nhưng thấy rằng hiệu suất vẫn không cải thiện.

Hơn nữa, các nhà nghiên cứu không phải là những người đầu tiên quan sát thấy rằng tự điều chỉnh không nhất thiết phải cải thiện khả năng lý luận LLM. Tóm lại, trọng tâm của các nhà nghiên cứu không phải là giải quyết các câu hỏi như, "Có tín hiệu tự điều chỉnh nào có thể cải thiện hiệu suất của một điểm chuẩn cụ thể không?" và vân vân. Những truy vấn như vậy có thể không đặc biệt có ý nghĩa.

Thay vào đó, các nhà nghiên cứu nhằm mục đích giải quyết một câu hỏi cơ bản hơn - "Các mô hình ngôn ngữ lớn có thể thực sự tự sửa chữa lý luận của họ chỉ dựa trên khả năng vốn có của họ không?"

Tự sửa lỗi như một suy nghĩ sau**

Trong nội dung trước đó, các nhà nghiên cứu đã quan sát thấy rằng LLM phải đối mặt với những thách thức trong việc tự sửa chữa lý luận của nó.

Tuy nhiên, như nghiên cứu trước đây đã chứng minh, tự điều chỉnh trong một số trường hợp đã mang lại kết quả ấn tượng.

Do đó, điều quan trọng là xác định sự khác biệt và xác định nguyên nhân gốc rễ.

Để giải quyết vấn đề này, điều quan trọng là phải nắm bắt bản chất cơ bản của việc tự điều chỉnh. Trong hình thức của nó, tự sửa chữa có thể được xem như là một suy nghĩ sau.

Nó khác với lời nhắc tiêu chuẩn (được gọi là lời nhắc trước ở đây) ở chỗ lời nhắc được thực hiện trên đầu trang của câu trả lời của LLM.

Các nhà nghiên cứu gọi quá trình cải thiện các tín hiệu như vậy là kỹ thuật nhanh chóng sau sự kiện.

Do đó, tự sửa lỗi giúp tăng cường phản hồi của mô hình khi tự sửa lỗi có thể cung cấp hướng dẫn hoặc phản hồi có giá trị mà lời nhắc trước không thể cung cấp.

Ví dụ: khi mục tiêu là làm cho phản hồi an toàn hơn, có thể khó hướng dẫn mô hình tạo ra phản hồi hoàn toàn không có rủi ro trong lần thử đầu tiên chỉ sử dụng các gợi ý trước. Trong trường hợp này, tự sửa chữa có thể được sử dụng như một phương tiện để tăng cường bảo mật phản hồi thông qua kiểm tra sau khi chết chi tiết.

Tuy nhiên, điều này có thể không xảy ra đối với các nhiệm vụ suy luận.

Lời nhắc phản hồi, chẳng hạn như "Xem lại câu trả lời trước đây của bạn và tìm vấn đề với câu trả lời của bạn." Nó không nhất thiết cung cấp lợi ích hữu hình cho lý luận.

Ngoài ra, ngay cả khi quan sát thấy sự cải thiện đáng kể về hiệu suất sau khi tự điều chỉnh, việc xem xét cẩn thận thiết kế nhanh chóng là cần thiết.

Ví dụ: nếu phản hồi cần đáp ứng các tiêu chí có thể dễ dàng chỉ định trong hướng dẫn ban đầu (ví dụ: đầu ra phải chứa một số từ nhất định, mã được tạo cần phải hiệu quả, tình cảm phải cực kỳ tiêu cực), thay vì cung cấp các yêu cầu này dưới dạng phản hồi trong lời nhắc sau khi chết, một chiến lược thay thế hiệu quả hơn về chi phí là nhúng các yêu cầu này trực tiếp (rõ ràng) vào lời nhắc trước.

Các kết quả trong Bảng 5 ở trên cho thấy gợi ý được thiết kế cẩn thận của các nhà nghiên cứu "gợi ý tiêu chuẩn (của điều tra viên)" vượt trội so với kết quả tự điều chỉnh của các nghiên cứu trước đó.

Ngoài ra, hiệu suất thậm chí còn giảm khi các nhà nghiên cứu sử dụng các mẹo của họ để cải thiện đầu ra của các nhà nghiên cứu.

Một lần nữa, mục tiêu của các nhà nghiên cứu ở đây không phải là tranh luận liệu có những lời nhắc nhở hậu hoc có thể vượt qua những lời nhắc nhở mà các nhà nghiên cứu viết theo ý muốn hay không. Mục tiêu chính của các nhà nghiên cứu là khuyến khích sự giám sát nghiêm ngặt hơn đối với các thí nghiệm tự hiệu chuẩn.

Sẽ không có ý nghĩa gì khi sử dụng lời nhắc sau khi chết được thiết kế tốt để hướng dẫn các mô hình "tự sửa" các phản hồi được tạo ra thông qua lời nhắc trước kém.

Để so sánh công bằng, những nỗ lực bình đẳng nên được đưa vào các lời nhắc trước và sau sự kiện.

Tài nguyên:

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
1/3
1CandyDrop Airdrop Event 6.0
64k Phổ biến
2White House Crypto Report
59k Phổ biến
3Join Alpha RION Airdrop to Earn $40
45k Phổ biến
4Fed Holds Rates Decision
9k Phổ biến
5July Spark Program TOP 10 Creators Announced
3k Phổ biến

Ghim

sơ đồ trang web

DeepMind: Các mô hình lớn cũng tiếp xúc với những sai sót lớn và không thể tự sửa chữa lý luận của họ, trừ khi câu trả lời đúng được biết trước

Thiết lập thử nghiệm

**Tại sao hiệu suất giảm sút? **

Tại sao hiệu suất giảm sút?