GPT-4 không biết rằng nó sai! Những sai sót mới của LLM đã bị phơi bày, và tỷ lệ tự sửa lỗi thành công chỉ là 1%, và LeCun Marcus đã thốt lên rằng anh ta càng sửa chữa thì càng sai

GPT-4 đơn giản là không biết rằng nó đang phạm sai lầm? Nghiên cứu mới nhất đã phát hiện ra rằng LLM trong nhiệm vụ lý luận, sau khi tự sửa chữa, không thể cứu được sự suy giảm hiệu suất, khiến ông chủ AI LeCun Marcus phải theo dõi.

Nguồn gốc: Shin Ji Yuan

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Mô hình lớn đã tiếp xúc với những sai sót lớn, thu hút sự chú ý của LeCun và Marcus cùng một lúc!

Trong thí nghiệm suy luận, mô hình tuyên bố cải thiện độ chính xác đã tự sửa chữa, đã "cải thiện" tỷ lệ chính xác từ 16% lên 1%!

Nói một cách đơn giản, LLM không thể cải thiện đầu ra dưới dạng tự sửa dưới dạng các nhiệm vụ suy luận, trừ khi LLM đã biết câu trả lời đúng trong quá trình tự sửa.

Hai bài báo được xuất bản bởi các nhà nghiên cứu ASU bác bỏ phương pháp "tự điều chỉnh" được đề xuất bởi nhiều nghiên cứu trước đây - cho phép các mô hình lớn tự sửa kết quả đầu ra của họ có thể cải thiện chất lượng đầu ra của mô hình.

Địa chỉ giấy:

Địa chỉ giấy:

Giáo sư Subbarao Kambhampati, đồng tác giả của bài báo, đã cam kết nghiên cứu khả năng suy luận AI và xuất bản một bài báo vào tháng 9, thậm chí phủ nhận hoàn toàn khả năng lập luận và lập kế hoạch của GPT-4.

Địa chỉ giấy:

Ngoài giáo sư này, các nhà nghiên cứu gần đây tại DeepMind và Đại học UIUC cũng đã đặt câu hỏi về khả năng "tự sửa chữa" của LLM trong các nhiệm vụ lý luận.

Bài báo thậm chí còn kêu gọi tất cả các học giả thực hiện nghiên cứu có liên quan hãy xem xét nghiên cứu của bạn một cách nghiêm túc, và không nói với mô hình lớn câu trả lời đúng và sau đó để nó thực hiện cái gọi là "tự sửa chữa".

Bởi nếu mô hình không biết đáp án đúng, chất lượng đầu ra sẽ xấu đi sau khi mô hình "tự sửa".

Tiếp theo, chúng ta hãy xem xét hai bài báo mới nhất này.

**GPT-4 "tự sửa", đầu ra kém hơn **

Bài báo đầu tiên tập trung vào GPT-4, yêu cầu GPT-4 cung cấp giải pháp cho vấn đề đổ bóng đồ họa, và sau đó GPT-4 "tự sửa" giải pháp của riêng mình.

Đồng thời, các tác giả đã giới thiệu một hệ thống đánh giá bên ngoài để đánh giá đầu ra trực tiếp của GPT-4 và đầu ra sau một chu kỳ "tự điều chỉnh".

Kết quả thí nghiệm cho thấy GPT-4 có độ chính xác dưới 20% trong việc đoán màu, điều này dường như không đáng ngạc nhiên.

Nhưng đáng ngạc nhiên, độ chính xác trong chế độ "tự điều chỉnh" đã giảm đáng kể (thanh thứ hai bên dưới) - hoàn toàn trái ngược với mọi ý định tự sửa!

Theo các tác giả, tình huống dường như phản trực giác này có thể được giải thích bằng điều này: GPT-4 cũng thực hiện một công việc khủng khiếp là xác minh câu trả lời đúng!

Bởi vì ngay cả khi GPT-4 vô tình đoán đúng màu, việc "tự sửa" của nó sẽ khiến nó nghĩ rằng câu trả lời đúng có vấn đề, và sau đó thay thế câu trả lời đúng.

Nghiên cứu sâu hơn cũng phát hiện ra rằng GPT-4 thực sự sẽ cải thiện giải pháp của nó nếu một trình xác thực bên ngoài cung cấp câu trả lời chính xác có thể kiểm chứng cho màu sắc mà nó đoán.

Trong trường hợp này, lời nhắc được tạo ra bởi "tự sửa" thực sự có thể cải thiện chất lượng đầu ra (thanh 3-5 của hình trên)

Tóm lại, đối với nhiệm vụ "vấn đề tô màu", việc "tự sửa" độc lập của GPT-4 sẽ làm giảm hiệu suất của đầu ra, vì GPT-4 không thể xác minh rằng câu trả lời là đúng.

Tuy nhiên, nếu quy trình xác minh bên ngoài chính xác được cung cấp, "tự sửa chữa" được tạo bởi GPT-4 thực sự có thể cải thiện hiệu suất.

Một bài báo khác đã xem xét khả năng của các mô hình ngôn ngữ lớn để "tự sửa chữa" từ quan điểm của các nhiệm vụ lập kế hoạch và kết quả tương tự như bài báo trước.

Hơn nữa, các nhà nghiên cứu phát hiện ra rằng điều thực sự cải thiện độ chính xác của đầu ra không phải là "tự điều chỉnh" LLM, mà là phản hồi từ một trình xác thực độc lập bên ngoài.

Trong phân tích cuối cùng, LLM không có cách nào để tiến hành xác minh độc lập và phải dựa vào "câu trả lời đúng" được đưa ra bởi trình xác thực bên ngoài để "tự sửa" một cách hiệu quả.

** "Câu hỏi tô màu" hoạt động kém và LLM không thể xác minh độc lập câu trả lời đúng **

Khung thiết kế nghiên cứu

"Bài toán tô màu" là một bài toán suy luận rất kinh điển, dù không khó nhưng đáp án cũng đủ đa dạng, tính đúng đắn của đáp án rất dễ kiểm chứng.

Kết quả của sự đa dạng gây khó khăn cho việc bao quát toàn bộ dữ liệu đào tạo của LLM và khả năng ô nhiễm dữ liệu đào tạo LLM được tránh càng nhiều càng tốt.

Những lý do này làm cho "vấn đề tô màu" rất phù hợp để nghiên cứu khả năng suy luận của LLM, và cũng thuận tiện để nghiên cứu khả năng "tự sửa" của LLM trong lý luận.

Các nhà nghiên cứu đã xây dựng bộ dữ liệu của riêng họ, sử dụng GrinPy2 để xử lý các thao tác đồ thị phổ biến. Mỗi đồ thị được xây dựng bằng phương pháp Erdos-Rényi (̋p = 0,4).

Khi câu trả lời đúng được tìm thấy, nó được biên dịch thành định dạng DIMACS tiêu chuẩn với nhận xét chứa số màu được tính toán trước của nó.

Đối với thí nghiệm tiếp theo, các nhà nghiên cứu đã tạo ra 100 trường hợp, mỗi trường hợp có trung bình 24 cạnh, được phân phối trên một loạt các nút từ 10 đến 17 — một phân phối đã được chứng minh bằng kinh nghiệm là một phạm vi đủ thay đổi.

Sơ đồ được sử dụng bởi các nhà nghiên cứu được thể hiện trong Hình 1 bên dưới, bao gồm câu trả lời đầu tiên của LLM, lời nhắc trở lại của phản hồi và bảng màu chính xác cuối cùng.

### ** Kiến trúc để sao lưu lặp đi lặp lại **

Trình tạo lời nhắc:

Trình tạo lời nhắc này lấy một phiên bản DIMACS, dịch từng cạnh thành một câu và sau đó gói toàn bộ trong một tập hợp các hướng dẫn chung để xây dựng lời nhắc ngôn ngữ tự nhiên.

Các nhà nghiên cứu cố tình thu hẹp sự khác biệt giữa các lời nhắc trường hợp khác nhau để giảm thông tin cụ thể về vấn đề mà các nhà nghiên cứu đã rò rỉ cho LLM. Ví dụ về các loại lời nhắc khác nhau có thể được tìm thấy trong phụ lục.

Mô hình ngôn ngữ lớn:

GPT-4 được gọi thông qua API OpenAI, hiện là mô hình tiên tiến nhất.

Các nhà nghiên cứu cung cấp một vai trò hệ thống: "Bạn là một người giải quyết sự hài lòng ràng buộc giải quyết các CSP khác nhau (các vấn đề về sự hài lòng ràng buộc)".

Thế hệ trở lại

Trong chế độ xác thực, LLM nhận được một loại lời nhắc khác.

Ngoài các hướng dẫn tiêu chuẩn, nó chỉ chứa một mô tả về sơ đồ và một bảng màu được đề xuất. Nhiệm vụ của nó là xác minh tính chính xác, tối ưu và mỗi đỉnh đã được sơn một màu.

Nếu câu trả lời kết quả có một tập hợp các cạnh mâu thuẫn, bảng màu là sai.

Để so sánh từng điểm, các nhà nghiên cứu cũng xây dựng một trình xác thực liệt kê từng cạnh mâu thuẫn.

Vì các câu trả lời của LLM cũng ở dạng ngôn ngữ tự nhiên, trước tiên các nhà nghiên cứu đã dịch chúng sang một định dạng dễ phân tích. Để làm cho quá trình này nhất quán hơn, các nhà nghiên cứu đã thiết kế các gợi ý ban đầu để mô tả định dạng đầu ra chính xác mà một mô hình cần tuân theo. Câu trả lời sau đó được đánh giá về tính chính xác.

Để đánh giá kết quả xác nhận LLM, các nhà nghiên cứu kiểm tra mức độ hiệu quả của họ trong việc xác định các lỗi trong sơ đồ đổ bóng được đề xuất.

Theo trực giác, chúng sẽ dễ xác định: nếu hai đỉnh tạo nên một cạnh có chung màu, ngay lập tức quay trở lại cạnh đó. Từ quan điểm thuật toán, nó là đủ để phát hiện tất cả các cạnh và so sánh màu sắc của mỗi đỉnh với màu của điểm mà nó được kết nối.

Xác minh

Để hiểu sâu hơn về khả năng xác minh của LLM, các nhà nghiên cứu đã nghiên cứu hiệu suất của chúng trong việc xác định lỗi trong bảng màu được đề xuất.

Theo trực giác, những lỗi này sẽ dễ xác định: nếu hai đỉnh tạo nên một cạnh có chung màu, cạnh sẽ được trả về ngay lập tức. Từ quan điểm thuật toán, tất cả những gì cần làm là lặp qua tất cả các cạnh và so sánh màu sắc của mỗi đỉnh với màu của đỉnh tương ứng của nó.

Các nhà nghiên cứu đã sử dụng cùng một quy trình phân tích, nhưng đã xây dựng một miền mới mà các nhà nghiên cứu gọi là màu sắc \ _verification. LLM được hướng dẫn để kiểm tra tính chính xác của bóng, độ tối ưu và liệu mỗi đỉnh đã được gán một màu hay chưa.

Nếu tô bóng không chính xác, nó được hướng dẫn liệt kê các lỗi trong tô bóng, nghĩa là, nếu hai nút được kết nối chia sẻ một màu, cạnh đó được trả về để đại diện cho lỗi. Không có lưng được đưa ra.

Các nhà nghiên cứu đã sử dụng cùng một ví dụ đồ thị như trước đây, nhưng đã tạo ra bốn sơ đồ đổ bóng để thử nghiệm mô hình:

Chính xác: Sơ đồ đổ bóng tối ưu không có lỗi được tạo ra bởi một thuật toán tham lam ngẫu nhiên, lặp đi lặp lại (sử dụng số lượng màu được tính toán trước để đảm bảo tính tối ưu).

Ablated: Thay đổi màu sắc của một nút ngẫu nhiên từ một bộ sơ đồ đổ bóng trước đó sang các nút lân cận của nó.

Không tối ưu: Trong bộ chính xác, một phần màu được chọn ngẫu nhiên và đổi màu thành màu mới.

Ngẫu nhiên: Các màu được gán hoàn toàn ngẫu nhiên, số lượng màu khác nhau bằng với số màu của hình.

LLM: Một bảng màu được chọn ngẫu nhiên từ đầu ra được tạo bởi LLM từ các thí nghiệm trước đó.

Kết luận

LLM được nhắc, các câu trả lời được đánh giá và phiên bản tiếp theo được chuyển tiếp mà không có bất kỳ sự hỗ trợ nào, dẫn đến điểm cơ bản là 16%.

Khi các nhà nghiên cứu chạy cùng một phiên bản, nhưng lần này trả về lời nhắc bằng cách sử dụng phản hồi được tạo bởi cùng một mô hình ngôn ngữ hoạt động như một trình xác thực, hiệu suất giảm đáng kể - chỉ một trong số 100 trường hợp có câu trả lời đúng.

Kết quả của lời nhắc trả về với trình xác thực đủ điều kiện bên ngoài thoạt đầu có vẻ hiệu quả hơn.

Số trường hợp phản hồi đúng là gần 40%, nhưng nếu điều đó có nghĩa là GPT-4 đang lắng nghe, cải thiện và lý luận dựa trên phản hồi, thì các nhà nghiên cứu mong đợi kết quả tốt hơn từ lời nhắc trả lại chính xác hơn.

Tuy nhiên, trong lĩnh vực này, phần thô (xem Hình 2 ở trên) không chứng minh điều này.

** Khả năng xác minh LLM **

Các nhà nghiên cứu đã kiểm tra khả năng của GPT-4 để xác minh các sơ đồ tô bóng đồ thị trên cùng một phiên bản, tạo ra năm loại sơ đồ đổ bóng khác nhau cho mỗi trường hợp.

Kết quả rõ ràng hoàn toàn giống với kết quả tự sửa LLM ở trên: mô hình gần như miễn cưỡng đánh dấu bất kỳ câu trả lời nào là đúng. Trong số 100 phương án che bóng tối ưu, nó đồng ý rằng chỉ có 2 trong số đó là chính xác.

Trong toàn bộ bộ sưu tập 500 bảng màu, 118 trong số đó là chính xác, nó chỉ tuyên bố rằng 30 trong số chúng là chính xác. Trong số 30 người này, chỉ có 5 người thực sự đúng.

Nhìn chung, mô hình này vẫn giữ nguyên. Trong ít hơn 10% trường hợp, LLM đã đưa ra câu trả lời là "đúng", "không tối ưu" hoặc "thiếu bài tập". Trong những trường hợp này, hành vi xuất hiện hơi ngẫu nhiên.

Trong khoảng một phần tư các trường hợp, nó phản ứng với xác nhận "điều này là không chính xác" trong khi cách giải thích tương ứng với thực tế và nó chỉ làm điều này bằng cách chỉ ra không quá một phía, giảm thiểu cơ hội bỏ lỡ điều gì đó.

Kết quả được thể hiện trong Bảng 2 ở trên. Lưu ý rằng khi tỷ lệ lỗi của tên miền tăng lên, tỷ lệ ảo giác giảm. Đó là, khi có nhiều cạnh không chính xác hơn, mô hình có nhiều khả năng chỉ ra nơi xảy ra sự cố.

LLM tự phê bình, hiệu suất không tăng mà giảm

Trong bài báo gửi ngày 12, các tác giả cũng đưa ra kết luận tương tự như trên.

Cho dù đó là lập kế hoạch, số học đơn giản hay logic, GPT-4, mô hình lớn hiện đại, không hoàn toàn đủ năng lực.

Nhiều nhà nghiên cứu đã khám phá và cải thiện nó, bao gồm cho phép LLM học cách tự lặp lại, tự xác nhận và các chiến lược khác để cải thiện hiệu suất.

Kết quả là, những người trong ngành lạc quan rằng mô hình lớn vẫn có thể được cứu!

Tuy nhiên, sự phức tạp của nhiệm vụ suy luận theo nghĩa cổ điển không liên quan gì đến mô hình lớn, bởi vì LLM là một mô hình sử dụng truy xuất gần đúng hơn là lý luận chính xác.

Trong một bài báo được trình bày bởi arXiv vào ngày 12, các nhà nghiên cứu ASU đã đánh giá và phân tích một cách có hệ thống khả năng tự phê bình của LLM trong việc lập kế hoạch nhiệm vụ và tối ưu hóa lặp đi lặp lại.

Trong nghiên cứu, các tác giả đề xuất một hệ thống lập kế hoạch bao gồm trình tạo LLM và trình xác nhận LLM.

Trong số đó, trình tạo GPT-4 chịu trách nhiệm tạo các kế hoạch ứng cử viên và trình xác thực GPT-4 chịu trách nhiệm xác minh tính đúng đắn của kế hoạch và cung cấp phản hồi.

Sau đó, các nhà nghiên cứu đã tiến hành các thí nghiệm trong lĩnh vực quy hoạch Blocksworld và tiến hành đánh giá thực nghiệm về:

  • Tác động của việc tự phê bình đến hiệu suất phát điện theo kế hoạch của toàn bộ hệ thống LLM + LLM

  • hiệu suất của LLM xác thực liên quan đến xác minh sự thật trên mặt đất;

  • Khi chỉ trích việc tạo ra LLM, cùng một mức độ phản hồi ảnh hưởng đến hiệu suất tổng thể của hệ thống.

Kết quả cho thấy tự phê bình làm giảm hiệu suất tạo kế hoạch LLM so với việc sử dụng trình xác thực đáng tin cậy bên ngoài.

Sự suy giảm hiệu suất có thể được quy trực tiếp cho kết quả kém của trình xác thực LLM, tạo ra một số lượng lớn dương tính giả, có thể làm giảm nghiêm trọng độ tin cậy của hệ thống.

Độ chính xác phân loại nhị phân của trình xác thực LLM chỉ là 61% và có một số lượng lớn dương tính giả (đánh giá sơ đồ sai là đúng).

Ngoài ra, theo so sánh mức độ chi tiết của phản hồi, người ta thấy rằng nó ít ảnh hưởng đến hiệu suất của việc lập kế hoạch tạo ra.

Nhìn chung, cuộc điều tra có hệ thống của nghiên cứu này cung cấp bằng chứng sơ bộ đặt câu hỏi về tính hiệu quả của LLM như một người xác nhận các nhiệm vụ lập kế hoạch trong khuôn khổ lặp đi lặp lại, tự phê bình.

Giới thiệu về tác giả

Subbarao Kambhampati

Subbarao Kambhampati là giáo sư khoa học máy tính tại Đại học bang Arizona. Kambhampati nghiên cứu các vấn đề cơ bản trong việc lập kế hoạch và ra quyết định, đặc biệt được thúc đẩy bởi những thách thức của hệ thống trí tuệ nhân tạo đối với nhận thức của con người.

Tài nguyên:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)