DeepMind cho phép các mô hình lớn học cảm ứng và suy luận, và độ chính xác GPT-4 cải thiện 13,7%

巴比特_ · 2023-10-14T06:07:02+00:00

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ffd367b189-dd1a6f-69ad2a) Nguồn hình ảnh: Được tạo bởi Unbounded AIHiện tại, các mô hình ngôn ngữ lớn (LLM) cho thấy khả năng ấn tượng trong các nhiệm vụ suy luận, đặc biệt là khi đưa ra các ví dụ và các bước trung gian. Tuy nhiên, các phương pháp thường dựa vào kiến thức ngầm trong LLM và LLM đưa ra câu trả lời không chính xác khi kiến thức ngầm sai hoặc không phù hợp với nhiệm vụ.Giờ đây, các nhà nghiên cứu từ Google, Viện Mila và các tổ chức nghiên cứu khác đã cùng nhau khám phá một cách mới để LLM tìm hiểu các quy tắc suy luận và đề xuất một khuôn khổ mới gọi là Giả thuyết thành Lý thuyết (HtT). Cách tiếp cận mới này không chỉ cải thiện lý luận nhiều bước, mà còn có những ưu điểm về khả năng diễn giải, khả năng chuyển nhượng, v.v.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9d63fa595d-dd1a6f-69ad2a) Địa chỉ giấy:Các thí nghiệm về các vấn đề suy luận số và quan hệ cho thấy HtT cải thiện các phương pháp hiện có với độ chính xác cao hơn 11-27%. Các quy tắc đã học cũng có thể được chuyển sang các mô hình khác nhau hoặc các hình thức khác nhau của cùng một vấn đề. ## **Giới thiệu về phương pháp** Tóm lại, framework HtT bao gồm hai giai đoạn – một giai đoạn quy nạp và một giai đoạn suy luận, tương tự như đào tạo và thử nghiệm trong học máy truyền thống.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3607e1160d-dd1a6f-69ad2a) Trong giai đoạn cảm ứng, LLM trước tiên được yêu cầu tạo và xác nhận các quy tắc cho một tập hợp các ví dụ đào tạo. Nghiên cứu sử dụng CoT để tuyên bố các quy tắc và rút ra câu trả lời, đánh giá tần suất và độ chính xác của các quy tắc, đồng thời thu thập các quy tắc thường xuất hiện và dẫn đến các câu trả lời đúng để tạo thành cơ sở quy tắc.Với một cơ sở quy tắc tốt, bước tiếp theo là nghiên cứu cách áp dụng các quy tắc này để giải quyết vấn đề. Để kết thúc này, trong giai đoạn suy diễn, nghiên cứu thêm một cơ sở quy tắc vào và yêu cầu LLM truy xuất các quy tắc từ cơ sở quy tắc để suy luận, chuyển đổi suy luận ngầm thành suy luận rõ ràng.Tuy nhiên, nghiên cứu cho thấy ngay cả các LLM rất mạnh, chẳng hạn như GPT-4, cũng phải vật lộn để lấy lại các quy tắc phù hợp ở mọi bước. Để kết thúc này, nghiên cứu đã phát triển một thủ thuật gắn thẻ XML để tăng cường khả năng truy xuất ngữ cảnh của LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4a898320f9-dd1a6f-69ad2a) **Kết quả thí nghiệm**Để đánh giá HtT, nghiên cứu được đánh giá dựa trên hai bài toán suy luận nhiều bước. Kết quả thí nghiệm cho thấy HtT cải thiện phương pháp ít mẫu. Các tác giả cũng tiến hành các nghiên cứu cắt bỏ sâu rộng để cung cấp sự hiểu biết toàn diện hơn về HtT.Họ đánh giá các cách tiếp cận mới đối với các vấn đề lý luận số và quan hệ. Trong lý luận số, họ quan sát thấy sự cải thiện 21,0% về độ chính xác với GPT-4. Trong suy luận quan hệ, GPT-4 cải thiện độ chính xác lên 13,7%, trong khi GPT-3.5 thậm chí còn được hưởng lợi nhiều hơn, tăng gấp đôi hiệu suất. Mức tăng hiệu suất chủ yếu đến từ việc giảm ảo tưởng về sự đều đặn.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-71e15afe44-dd1a6f-69ad2a) Cụ thể, Bảng 1 dưới đây cho thấy kết quả trên các bộ dữ liệu số học cơ số 16, cơ số 11 và cơ số 9. Trong tất cả các hệ thống cơ sở, CoT 0-shot hoạt động kém nhất trong cả hai LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-19e04741d8-dd1a6f-69ad2a) BẢNG 2 TRÌNH BÀY KẾT QUẢ SO SÁNH CÁC PHƯƠNG PHÁP KHÁC NHAU TRÊN CLUTRR. Có thể thấy rằng CoT 0-shot có hiệu suất kém nhất trong GPT3.5 và GPT4. Đối với phương pháp gợi ý ít shot, hiệu suất của CoT và LtM là tương tự nhau. Về độ chính xác trung bình, HtT luôn vượt trội so với phương pháp cue của cả hai mô hình từ 11,1-27,2%. Điều đáng chú ý là GPT3.5 không tệ trong việc truy xuất các quy tắc CLUTRR và hưởng lợi nhiều hơn từ HtT so với GPT4, có lẽ vì có ít quy tắc trong CLUTRR hơn trong số học.Điều đáng nói là sử dụng các quy tắc của GPT4, hiệu suất CoT trên GPT3.5 cải thiện 27,2%, cao hơn gấp đôi hiệu suất CoT và gần với hiệu suất CoT trên GPT4. Do đó, các tác giả tin rằng HtT có thể phục vụ như một hình thức chắt lọc kiến thức mới từ LLM mạnh sang LLM yếu.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1b148a426b-dd1a6f-69ad2a) Bảng 3 cho thấy HtT cải thiện đáng kể hiệu suất của GPT-4 (phiên bản văn bản). Đối với GPT3.5, cải tiến này không đáng kể, vì nó thường tạo ra các lỗi khác ngoài ảo tưởng về các quy tắc khi xử lý đầu vào văn bản.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-34c583517d-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7cb28b6cd4-dd1a6f-69ad2a)

巴比特_

2023-10-14 06:07:02

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Hiện tại, các mô hình ngôn ngữ lớn (LLM) cho thấy khả năng ấn tượng trong các nhiệm vụ suy luận, đặc biệt là khi đưa ra các ví dụ và các bước trung gian. Tuy nhiên, các phương pháp thường dựa vào kiến thức ngầm trong LLM và LLM đưa ra câu trả lời không chính xác khi kiến thức ngầm sai hoặc không phù hợp với nhiệm vụ.

Giờ đây, các nhà nghiên cứu từ Google, Viện Mila và các tổ chức nghiên cứu khác đã cùng nhau khám phá một cách mới để LLM tìm hiểu các quy tắc suy luận và đề xuất một khuôn khổ mới gọi là Giả thuyết thành Lý thuyết (HtT). Cách tiếp cận mới này không chỉ cải thiện lý luận nhiều bước, mà còn có những ưu điểm về khả năng diễn giải, khả năng chuyển nhượng, v.v.

Địa chỉ giấy:

Các thí nghiệm về các vấn đề suy luận số và quan hệ cho thấy HtT cải thiện các phương pháp hiện có với độ chính xác cao hơn 11-27%. Các quy tắc đã học cũng có thể được chuyển sang các mô hình khác nhau hoặc các hình thức khác nhau của cùng một vấn đề.

Giới thiệu về phương pháp

Tóm lại, framework HtT bao gồm hai giai đoạn – một giai đoạn quy nạp và một giai đoạn suy luận, tương tự như đào tạo và thử nghiệm trong học máy truyền thống.

Trong giai đoạn cảm ứng, LLM trước tiên được yêu cầu tạo và xác nhận các quy tắc cho một tập hợp các ví dụ đào tạo. Nghiên cứu sử dụng CoT để tuyên bố các quy tắc và rút ra câu trả lời, đánh giá tần suất và độ chính xác của các quy tắc, đồng thời thu thập các quy tắc thường xuất hiện và dẫn đến các câu trả lời đúng để tạo thành cơ sở quy tắc.

Với một cơ sở quy tắc tốt, bước tiếp theo là nghiên cứu cách áp dụng các quy tắc này để giải quyết vấn đề. Để kết thúc này, trong giai đoạn suy diễn, nghiên cứu thêm một cơ sở quy tắc vào và yêu cầu LLM truy xuất các quy tắc từ cơ sở quy tắc để suy luận, chuyển đổi suy luận ngầm thành suy luận rõ ràng.

Tuy nhiên, nghiên cứu cho thấy ngay cả các LLM rất mạnh, chẳng hạn như GPT-4, cũng phải vật lộn để lấy lại các quy tắc phù hợp ở mọi bước. Để kết thúc này, nghiên cứu đã phát triển một thủ thuật gắn thẻ XML để tăng cường khả năng truy xuất ngữ cảnh của LLM.

Kết quả thí nghiệm

Để đánh giá HtT, nghiên cứu được đánh giá dựa trên hai bài toán suy luận nhiều bước. Kết quả thí nghiệm cho thấy HtT cải thiện phương pháp ít mẫu. Các tác giả cũng tiến hành các nghiên cứu cắt bỏ sâu rộng để cung cấp sự hiểu biết toàn diện hơn về HtT.

Họ đánh giá các cách tiếp cận mới đối với các vấn đề lý luận số và quan hệ. Trong lý luận số, họ quan sát thấy sự cải thiện 21,0% về độ chính xác với GPT-4. Trong suy luận quan hệ, GPT-4 cải thiện độ chính xác lên 13,7%, trong khi GPT-3.5 thậm chí còn được hưởng lợi nhiều hơn, tăng gấp đôi hiệu suất. Mức tăng hiệu suất chủ yếu đến từ việc giảm ảo tưởng về sự đều đặn.

Cụ thể, Bảng 1 dưới đây cho thấy kết quả trên các bộ dữ liệu số học cơ số 16, cơ số 11 và cơ số 9. Trong tất cả các hệ thống cơ sở, CoT 0-shot hoạt động kém nhất trong cả hai LLM.

BẢNG 2 TRÌNH BÀY KẾT QUẢ SO SÁNH CÁC PHƯƠNG PHÁP KHÁC NHAU TRÊN CLUTRR. Có thể thấy rằng CoT 0-shot có hiệu suất kém nhất trong GPT3.5 và GPT4. Đối với phương pháp gợi ý ít shot, hiệu suất của CoT và LtM là tương tự nhau. Về độ chính xác trung bình, HtT luôn vượt trội so với phương pháp cue của cả hai mô hình từ 11,1-27,2%. Điều đáng chú ý là GPT3.5 không tệ trong việc truy xuất các quy tắc CLUTRR và hưởng lợi nhiều hơn từ HtT so với GPT4, có lẽ vì có ít quy tắc trong CLUTRR hơn trong số học.

Điều đáng nói là sử dụng các quy tắc của GPT4, hiệu suất CoT trên GPT3.5 cải thiện 27,2%, cao hơn gấp đôi hiệu suất CoT và gần với hiệu suất CoT trên GPT4. Do đó, các tác giả tin rằng HtT có thể phục vụ như một hình thức chắt lọc kiến thức mới từ LLM mạnh sang LLM yếu.

Bảng 3 cho thấy HtT cải thiện đáng kể hiệu suất của GPT-4 (phiên bản văn bản). Đối với GPT3.5, cải tiến này không đáng kể, vì nó thường tạo ra các lỗi khác ngoài ảo tưởng về các quy tắc khi xử lý đầu vào văn bản.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích

Phần thưởng
1
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
1/3
1CandyDrop Airdrop Event 6.0
17k Phổ biến
2White House Crypto Report
34k Phổ biến
3Join Alpha RION Airdrop to Earn $40
9k Phổ biến
4Fed Holds Rates Decision
8k Phổ biến
5July Spark Program TOP 10 Creators Announced
2k Phổ biến

Ghim

sơ đồ trang web