Suspicion Agent từ Đại học Tokyo sử dụng GPT-4 để chứng minh các lý thuyết bậc cao về tâm trí (ToM) trong các trò chơi thông tin không đầy đủ.
Trong một trò chơi thông tin hoàn chỉnh, mỗi người chơi biết tất cả các yếu tố thông tin.
Nhưng trò chơi thông tin không đầy đủ khác ở chỗ nó mô phỏng sự phức tạp của việc đưa ra quyết định trong thế giới thực dưới thông tin không chắc chắn hoặc không đầy đủ.
GPT-4, là mô hình mạnh nhất hiện nay, có khả năng truy xuất kiến thức và lý luận phi thường.
Nhưng GPT-4 có thể sử dụng những gì nó đã học để chơi các trò chơi thông tin không đầy đủ không?
Cuối cùng, các nhà nghiên cứu tại Đại học Tokyo đã giới thiệu Suspicion Agent, một tác nhân sáng tạo sử dụng khả năng của GPT-4 để thực hiện các trò chơi thông tin không đầy đủ.
Địa chỉ giấy:
Trong nghiên cứu, Suspicion Agent dựa trên GPT-4 đã có thể đạt được các chức năng khác nhau thông qua kỹ thuật gợi ý thích hợp và chứng minh khả năng thích ứng vượt trội trong một loạt các trò chơi thông tin không đầy đủ.
Quan trọng nhất, GPT-4 đã chứng minh khả năng lý thuyết tâm trí bậc cao (ToM) mạnh mẽ trong trò chơi.
GPT-4 có thể sử dụng sự hiểu biết của mình về nhận thức của con người để dự đoán quá trình suy nghĩ, tính nhạy cảm và hành động của đối thủ.
Điều này có nghĩa là GPT-4 có khả năng hiểu người khác và cố ý ảnh hưởng đến hành vi của họ như con người.
Tương tự, các tác nhân dựa trên GPT-4 cũng hoạt động tốt hơn các thuật toán truyền thống trong các trò chơi thông tin không đầy đủ, điều này có thể kích thích nhiều ứng dụng LLM hơn trong các trò chơi thông tin không đầy đủ.
01 Phương pháp đào tạo
Để cho phép LLM chơi các trò chơi trò chơi thông tin không đầy đủ khác nhau mà không cần đào tạo chuyên ngành, các nhà nghiên cứu đã chia toàn bộ nhiệm vụ thành nhiều mô-đun như trong hình dưới đây, chẳng hạn như trình thông dịch quan sát, phân tích chế độ trò chơi và mô-đun lập kế hoạch.
Và, để giảm thiểu vấn đề LLM có thể bị đánh lừa trong các trò chơi thông tin không đầy đủ, trước tiên các nhà nghiên cứu đã phát triển các gợi ý có cấu trúc để giúp LLM hiểu các quy tắc của trò chơi và trạng thái hiện tại.
Đối với mỗi loại trò chơi thông tin không đầy đủ, mô tả quy tắc có cấu trúc sau đây có thể được viết:
Quy tắc chung: giới thiệu về trò chơi, số vòng và quy tắc đặt cược;
Mô tả hành động: (Mô tả hành động 1), (Mô tả hành động 2)......;
Quy tắc thắng-thua: điều kiện thắng-thua hoặc hòa;
Quy tắc hoàn trả thắng-thua: phần thưởng hoặc hình phạt cho việc thắng hoặc thua một trò chơi;
Quy tắc thắng thua toàn bộ trò chơi: số lượng trò chơi và điều kiện thắng-thua tổng thể.
Trong hầu hết các môi trường trò chơi thông tin không đầy đủ, trạng thái trò chơi thường được biểu diễn dưới dạng các giá trị số cấp thấp, chẳng hạn như vectơ nhấp chuột, để tạo điều kiện cho việc học máy.
Nhưng với LLM, các trạng thái trò chơi cấp thấp có thể được chuyển đổi thành văn bản ngôn ngữ tự nhiên, do đó giúp hiểu các mẫu:
Mô tả đầu vào: Loại đầu vào nhận được, chẳng hạn như từ điển, danh sách hoặc định dạng khác và mô tả số lượng phần tử trong trạng thái trò chơi và tên của từng phần tử;
Mô tả phần tử: (Mô tả nguyên tố 11, (mô tả nguyên tố 2),....
Mẹo chuyển đổi: Hướng dẫn thêm về cách chuyển đổi trạng thái trò chơi cấp thấp thành văn bản.
Trong các trò chơi thông tin không đầy đủ, công thức này giúp dễ hiểu hơn về sự tương tác với mô hình.
Các nhà nghiên cứu đã giới thiệu một phương pháp lập trình hư vô với mô-đun Phản xạ được thiết kế để tự động kiểm tra lịch sử của các trận đấu, cho phép LLM học hỏi và cải thiện việc lập kế hoạch từ kinh nghiệm lịch sử và một mô-đun lập kế hoạch riêng biệt dành riêng để đưa ra quyết định tương ứng.
Tuy nhiên, các phương pháp lập kế hoạch hư vô thường phải vật lộn để đối phó với sự không chắc chắn vốn có trong các trò chơi thông tin không đầy đủ, đặc biệt là khi phải đối mặt với những đối thủ thành thạo trong việc sử dụng chiến lược của người khác.
Lấy cảm hứng từ sự thích ứng này, các nhà nghiên cứu đã nghĩ ra một cách tiếp cận lập kế hoạch mới khai thác các khả năng ToM của LLM để hiểu hành vi của đối thủ và điều chỉnh chiến lược cho phù hợp.
02 Đánh giá định lượng thí nghiệm
Như thể hiện trong Bảng 1, Tác nhân nghi ngờ hoạt động tốt hơn tất cả các đường cơ sở và Tác nhân nghi ngờ dựa trên GPT-4 thu được số lượng chip trung bình cao nhất trong so sánh.
Những phát hiện này thể hiện mạnh mẽ những lợi thế của việc sử dụng các mô hình ngôn ngữ lớn trong lĩnh vực trò chơi thông tin không đầy đủ, và cũng chứng minh tính hiệu quả của khung đề xuất.
Biểu đồ dưới đây cho thấy tỷ lệ phần trăm hành động được thực hiện bởi Tác nhân nghi ngờ và mô hình đường cơ sở.
Nó có thể được quan sát:
Tác nhân nghi ngờ vs CFR: Thuật toán CFR là một chiến lược bảo thủ có xu hướng bảo thủ và thường gấp lại khi cầm thẻ yếu.
Tác nhân nghi ngờ đã xác định thành công mô hình này và chiến lược chọn tăng thường xuyên hơn, gây áp lực gấp lên CFR.
Điều này cho phép Suspicion Agent tích lũy nhiều chip hơn ngay cả khi thẻ của nó yếu hoặc có thể so sánh với CFR.
Suspicion Agent vs DMC: DMC dựa trên các thuật toán tìm kiếm và sử dụng các chiến lược đa dạng hơn, bao gồm cả vô tội vạ. Nó thường giơ lên khi bàn tay của nó yếu nhất và mạnh nhất.
Đáp lại, Nhân viên nghi ngờ đã giảm tần suất tăng lương, tùy thuộc vào bàn tay của chính họ và quan sát hành vi DMC, và chọn gọi hoặc gấp nhiều hơn.
Suspicion Agent vs DON: Thuật toán DON có lập trường tích cực hơn, hầu như luôn nâng cao với các thẻ mạnh hoặc trung gian và không bao giờ gấp.
Đặc vụ nghi ngờ đã phát hiện ra điều này và lần lượt giảm thiểu việc tăng lương của chính mình, chọn cách gọi hoặc gấp nhiều hơn dựa trên hành động của công chúng và DON.
Đại lý nghi ngờ vs NFSP: NFSP thể hiện chiến lược cuộc gọi, chọn luôn gọi và không bao giờ gấp.
Tác nhân nghi ngờ phản ứng bằng cách giảm tần suất lấp đầy và chọn gấp dựa trên các hành động được quan sát bởi cộng đồng và NFSP.
Dựa trên kết quả phân tích trên, có thể thấy rằng Suspicion Agent có khả năng thích ứng cao và có thể khai thác điểm yếu của các chiến lược được áp dụng bởi nhiều thuật toán khác.
Điều này minh họa đầy đủ lý luận và khả năng thích ứng của các mô hình ngôn ngữ lớn trong các trò chơi thông tin không hoàn hảo.
03 Đánh giá định tính
Trong đánh giá định tính, các nhà nghiên cứu đã đánh giá Suspicion Agent trong ba trò chơi trò chơi thông tin không đầy đủ (Coup, Texas Hold'emLimit và Leduc Hold'em).
Đảo chính, bản dịch tiếng Trung là một cuộc đảo chính, một trò chơi bài trong đó người chơi đóng vai các chính trị gia cố gắng lật đổ chế độ của người chơi khác. Mục tiêu của trò chơi là sống sót trong trò chơi và tích lũy sức mạnh.
Texas Hold'em Limit, hay Texas Hold'em Limit, là một trò chơi bài rất phổ biến với một số biến thể. "Giới hạn" có nghĩa là có một giới hạn cố định cho mỗi lần đặt cược, có nghĩa là người chơi chỉ có thể đặt một số tiền cược cố định.
Leduc Hold'em là phiên bản đơn giản hóa của Texas Hold'em để nghiên cứu lý thuyết trò chơi và trí tuệ nhân tạo.
Trong mỗi trường hợp, Đặc vụ nghi ngờ có Jack trong tay, trong khi đối thủ có Jack hoặc Nữ hoàng.
Những người phản đối ban đầu chọn cách gọi thay vì giơ lên, ngụ ý rằng họ có một bàn tay yếu hơn. Theo chiến lược lập kế hoạch thông thường, Nhân viên nghi ngờ chọn cuộc gọi để xem thẻ công khai.
Khi điều này cho thấy tay của đối thủ yếu, đối thủ nhanh chóng tăng tiền cược, khiến Đặc vụ nghi ngờ rơi vào tình huống không ổn định, vì Jack là ván bài yếu nhất.
Theo chiến lược tinh thần lý thuyết bậc nhất, Đặc vụ nghi ngờ chọn cách gấp để giảm thiểu tổn thất. Quyết định này dựa trên quan sát rằng đối thủ thường gọi khi họ có Queen hoặc Jack trong tay.
Tuy nhiên, những chiến lược này không tận dụng được tối đa những điểm yếu đầu cơ của tay đối thủ. Hạn chế này xuất phát từ thực tế là họ không xem xét hành động của Đặc vụ nghi ngờ có thể ảnh hưởng đến phản ứng của đối thủ như thế nào.
Ngược lại, như thể hiện trong Hình 9, những gợi ý đơn giản cho phép Đặc vụ Nghi ngờ hiểu cách tác động đến hành động của kẻ thù. Cố tình chọn cách tăng cao gây áp lực lên đối thủ để gập lại và giảm thiểu tổn thất.
Do đó, ngay cả khi sức mạnh của bàn tay tương tự nhau, Đặc vụ nghi ngờ có thể thắng nhiều trò chơi và do đó giành được nhiều chip hơn đường cơ sở.
Ngoài ra, như thể hiện trong Hình 10, trong trường hợp đối thủ gọi hoặc trả lời tăng lương từ Đặc vụ nghi ngờ (điều này cho thấy tay của đối thủ mạnh), Đặc vụ nghi ngờ sẽ nhanh chóng điều chỉnh chiến lược của mình và chọn gập lại để tránh tổn thất thêm.
Điều này cho thấy sự linh hoạt chiến lược tuyệt vời của Suspicion Agent.
04 Nghiên cứu cắt bỏ và phân tích thành phần
Để khám phá các phương pháp lập kế hoạch nhận thức ToM trật tự khác nhau ảnh hưởng đến hành vi của các mô hình ngôn ngữ lớn như thế nào, các nhà nghiên cứu đã tiến hành các thí nghiệm và so sánh trên Leduc Hold'em và Plaagainst CFR.
Hình 5 cho thấy tỷ lệ phần trăm hành động của các Tác nhân nghi ngờ với kế hoạch cấp ToM khác nhau và kết quả năng suất chip được thể hiện trong Bảng 3.
Bảng 3: So sánh kết quả của Suspicion Agent với môi trường CFRonLeduc Hold'em sử dụng các mức ToM khác nhau và kết quả định lượng sau 100 trò chơi
Nó có thể được quan sát:
Dựa trên kế hoạch mô-đun phản xạ, có xu hướng gọi và chuyền nhiều hơn trong trò chơi (tỷ lệ gọi và chuyền cao nhất so với CFR và DMC), không thể gây áp lực lên đối thủ để gấp và dẫn đến nhiều tổn thất không đáng có.
Tuy nhiên, như thể hiện trong Bảng 3, chương trình Vanilla có mức tăng chip thấp nhất.
Sử dụng ToM bậc nhất, Đặc vụ nghi ngờ có thể đưa ra quyết định dựa trên sức mạnh của chính họ và ước tính sức mạnh của đối thủ.
Kết quả là, nó sẽ tăng gấp nhiều lần so với kế hoạch thông thường, nhưng nó có xu hướng gấp nhiều lần hơn các chiến lược khác để giảm thiểu tổn thất không cần thiết. Tuy nhiên, cách tiếp cận thận trọng này có thể được khai thác bởi các mô hình đối thủ hiểu biết.
Ví dụ, DMC thường tăng khi nắm tay yếu nhất, trong khi CFR đôi khi thậm chí còn tăng khi nắm tay trung gian để gây áp lực lên Tác nhân nghi ngờ. Trong những trường hợp này, xu hướng tăng gấp đôi của Tác nhân nghi ngờ có thể dẫn đến thua lỗ.
Ngược lại, Suspicion Agent tốt hơn trong việc xác định và khai thác các mô hình hành vi trong các mô hình đối thủ.
Cụ thể, khi CFR đã chọn một lá bài (thường biểu thị một ván bài yếu) hoặc khi DMC đã vượt qua (cho thấy bài của nó không phù hợp với thẻ cộng đồng), Đặc vụ nghi ngờ sẽ vô tội vạ để khiến đối thủ gấp.
Kết quả là, Suspicion Agent cho thấy tỷ lệ lấp đầy cao nhất trong số ba phương pháp lập kế hoạch.
Chiến lược tích cực này cho phép Suspicion Agent tích lũy nhiều chip hơn ngay cả với các thẻ yếu, do đó tối đa hóa lợi nhuận của chip.
Để đánh giá tác động của quan sát phía sau, các nhà nghiên cứu đã tiến hành một nghiên cứu cắt bỏ trong đó quan sát phía sau không được tích hợp vào các trò chơi hiện tại.
Như thể hiện trong Bảng 4 và 5, Tác nhân nghi ngờ duy trì lợi thế hiệu suất của nó so với phương pháp cơ bản mà không cần quan sát phía sau.
Bảng 4: Kết quả so sánh minh họa tác động của việc kết hợp các quan sát đối thủ vào lịch sử của bàn tay trong bối cảnh bàn tay Ledek
Bảng 5: Kết quả so sánh cho thấy khi Đặc vụ nghi ngờ thi đấu với CFR trong môi trường Leduc Hold'em, tác động của các quan sát đối thủ được thêm vào lịch sử trò chơi. Kết quả là một con chip thắng thua sau 100 vòng sử dụng các hạt giống khác nhau, với số lượng chip thắng thua dao động từ 1 đến 14
05 Kết luận
Suspicion Agent không được đào tạo chuyên môn và chỉ sử dụng kiến thức và khả năng suy luận trước đó của GPT-4 để đánh bại các thuật toán được đào tạo đặc biệt cho các trò chơi này, chẳng hạn như CFR và NFSP, trong các trò chơi thông tin không đầy đủ khác nhau như Leduc Hold'em.
Điều này cho thấy các mô hình lớn có tiềm năng đạt được hiệu suất mạnh mẽ trong các trò chơi có thông tin không đầy đủ.
Bằng cách tích hợp các mô hình tư duy lý thuyết bậc nhất và thứ hai, Tác nhân nghi ngờ có thể dự đoán hành vi của đối thủ và điều chỉnh chiến lược cho phù hợp. Điều này làm cho nó có thể thích nghi với các loại đối thủ khác nhau.
Suspicion Agent cũng thể hiện khả năng khái quát hóa trên các trò chơi thông tin không đầy đủ khác nhau, cho phép đưa ra quyết định trong các trò chơi như Coup và Texas Hold'em chỉ dựa trên các quy tắc của trò chơi và các quy tắc quan sát.
Nhưng Suspicion Agent cũng có những hạn chế nhất định. Ví dụ, kích thước mẫu của việc đánh giá các thuật toán khác nhau là nhỏ do các ràng buộc về chi phí tính toán.
Cũng như chi phí suy luận cao, chi phí gần 1 đô la cho mỗi trò chơi và đầu ra của Đặc vụ nghi ngờ rất nhạy cảm với lời nhắc, có một vấn đề ảo giác.
Đồng thời, khi nói đến lý luận và tính toán phức tạp, Tác nhân nghi ngờ cũng thực hiện không đạt yêu cầu.
Trong tương lai, Suspicion Agent sẽ cải thiện hiệu quả tính toán, tính mạnh mẽ của lý luận và hỗ trợ lý luận đa phương thức và đa bước để đạt được sự thích ứng tốt hơn với môi trường trò chơi phức tạp.
Đồng thời, việc ứng dụng Suspicion Agent trong các trò chơi trò chơi thông tin không đầy đủ cũng có thể được chuyển sang tích hợp thông tin đa phương thức trong tương lai, mô phỏng các tương tác thực tế hơn và mở rộng sang môi trường trò chơi nhiều người chơi.
Tài nguyên:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
GPT-4 sử dụng "lý thuyết tâm trí" để chơi cách đánh bại con người
Tác giả: Shin Ji Yuan
Suspicion Agent từ Đại học Tokyo sử dụng GPT-4 để chứng minh các lý thuyết bậc cao về tâm trí (ToM) trong các trò chơi thông tin không đầy đủ.
Trong một trò chơi thông tin hoàn chỉnh, mỗi người chơi biết tất cả các yếu tố thông tin.
Nhưng trò chơi thông tin không đầy đủ khác ở chỗ nó mô phỏng sự phức tạp của việc đưa ra quyết định trong thế giới thực dưới thông tin không chắc chắn hoặc không đầy đủ.
GPT-4, là mô hình mạnh nhất hiện nay, có khả năng truy xuất kiến thức và lý luận phi thường.
Nhưng GPT-4 có thể sử dụng những gì nó đã học để chơi các trò chơi thông tin không đầy đủ không?
Cuối cùng, các nhà nghiên cứu tại Đại học Tokyo đã giới thiệu Suspicion Agent, một tác nhân sáng tạo sử dụng khả năng của GPT-4 để thực hiện các trò chơi thông tin không đầy đủ.
Địa chỉ giấy:
Trong nghiên cứu, Suspicion Agent dựa trên GPT-4 đã có thể đạt được các chức năng khác nhau thông qua kỹ thuật gợi ý thích hợp và chứng minh khả năng thích ứng vượt trội trong một loạt các trò chơi thông tin không đầy đủ.
Quan trọng nhất, GPT-4 đã chứng minh khả năng lý thuyết tâm trí bậc cao (ToM) mạnh mẽ trong trò chơi.
GPT-4 có thể sử dụng sự hiểu biết của mình về nhận thức của con người để dự đoán quá trình suy nghĩ, tính nhạy cảm và hành động của đối thủ.
Điều này có nghĩa là GPT-4 có khả năng hiểu người khác và cố ý ảnh hưởng đến hành vi của họ như con người.
Tương tự, các tác nhân dựa trên GPT-4 cũng hoạt động tốt hơn các thuật toán truyền thống trong các trò chơi thông tin không đầy đủ, điều này có thể kích thích nhiều ứng dụng LLM hơn trong các trò chơi thông tin không đầy đủ.
01 Phương pháp đào tạo
Để cho phép LLM chơi các trò chơi trò chơi thông tin không đầy đủ khác nhau mà không cần đào tạo chuyên ngành, các nhà nghiên cứu đã chia toàn bộ nhiệm vụ thành nhiều mô-đun như trong hình dưới đây, chẳng hạn như trình thông dịch quan sát, phân tích chế độ trò chơi và mô-đun lập kế hoạch.
Và, để giảm thiểu vấn đề LLM có thể bị đánh lừa trong các trò chơi thông tin không đầy đủ, trước tiên các nhà nghiên cứu đã phát triển các gợi ý có cấu trúc để giúp LLM hiểu các quy tắc của trò chơi và trạng thái hiện tại.
Đối với mỗi loại trò chơi thông tin không đầy đủ, mô tả quy tắc có cấu trúc sau đây có thể được viết:
Quy tắc chung: giới thiệu về trò chơi, số vòng và quy tắc đặt cược;
Mô tả hành động: (Mô tả hành động 1), (Mô tả hành động 2)......;
Quy tắc thắng-thua: điều kiện thắng-thua hoặc hòa;
Quy tắc hoàn trả thắng-thua: phần thưởng hoặc hình phạt cho việc thắng hoặc thua một trò chơi;
Quy tắc thắng thua toàn bộ trò chơi: số lượng trò chơi và điều kiện thắng-thua tổng thể.
Trong hầu hết các môi trường trò chơi thông tin không đầy đủ, trạng thái trò chơi thường được biểu diễn dưới dạng các giá trị số cấp thấp, chẳng hạn như vectơ nhấp chuột, để tạo điều kiện cho việc học máy.
Nhưng với LLM, các trạng thái trò chơi cấp thấp có thể được chuyển đổi thành văn bản ngôn ngữ tự nhiên, do đó giúp hiểu các mẫu:
Mô tả đầu vào: Loại đầu vào nhận được, chẳng hạn như từ điển, danh sách hoặc định dạng khác và mô tả số lượng phần tử trong trạng thái trò chơi và tên của từng phần tử;
Mô tả phần tử: (Mô tả nguyên tố 11, (mô tả nguyên tố 2),....
Mẹo chuyển đổi: Hướng dẫn thêm về cách chuyển đổi trạng thái trò chơi cấp thấp thành văn bản.
! [beyfMqHmFbURoO6EQO5AoTFYhrYUnnA6gLdnZWWU.png] (https://img.jinse.cn/7115940_watermarknone.png "7115940")
Trong các trò chơi thông tin không đầy đủ, công thức này giúp dễ hiểu hơn về sự tương tác với mô hình.
Các nhà nghiên cứu đã giới thiệu một phương pháp lập trình hư vô với mô-đun Phản xạ được thiết kế để tự động kiểm tra lịch sử của các trận đấu, cho phép LLM học hỏi và cải thiện việc lập kế hoạch từ kinh nghiệm lịch sử và một mô-đun lập kế hoạch riêng biệt dành riêng để đưa ra quyết định tương ứng.
Tuy nhiên, các phương pháp lập kế hoạch hư vô thường phải vật lộn để đối phó với sự không chắc chắn vốn có trong các trò chơi thông tin không đầy đủ, đặc biệt là khi phải đối mặt với những đối thủ thành thạo trong việc sử dụng chiến lược của người khác.
Lấy cảm hứng từ sự thích ứng này, các nhà nghiên cứu đã nghĩ ra một cách tiếp cận lập kế hoạch mới khai thác các khả năng ToM của LLM để hiểu hành vi của đối thủ và điều chỉnh chiến lược cho phù hợp.
02 Đánh giá định lượng thí nghiệm
Như thể hiện trong Bảng 1, Tác nhân nghi ngờ hoạt động tốt hơn tất cả các đường cơ sở và Tác nhân nghi ngờ dựa trên GPT-4 thu được số lượng chip trung bình cao nhất trong so sánh.
Những phát hiện này thể hiện mạnh mẽ những lợi thế của việc sử dụng các mô hình ngôn ngữ lớn trong lĩnh vực trò chơi thông tin không đầy đủ, và cũng chứng minh tính hiệu quả của khung đề xuất.
Biểu đồ dưới đây cho thấy tỷ lệ phần trăm hành động được thực hiện bởi Tác nhân nghi ngờ và mô hình đường cơ sở.
Nó có thể được quan sát:
Tác nhân nghi ngờ vs CFR: Thuật toán CFR là một chiến lược bảo thủ có xu hướng bảo thủ và thường gấp lại khi cầm thẻ yếu.
Tác nhân nghi ngờ đã xác định thành công mô hình này và chiến lược chọn tăng thường xuyên hơn, gây áp lực gấp lên CFR.
Điều này cho phép Suspicion Agent tích lũy nhiều chip hơn ngay cả khi thẻ của nó yếu hoặc có thể so sánh với CFR.
Suspicion Agent vs DMC: DMC dựa trên các thuật toán tìm kiếm và sử dụng các chiến lược đa dạng hơn, bao gồm cả vô tội vạ. Nó thường giơ lên khi bàn tay của nó yếu nhất và mạnh nhất.
Đáp lại, Nhân viên nghi ngờ đã giảm tần suất tăng lương, tùy thuộc vào bàn tay của chính họ và quan sát hành vi DMC, và chọn gọi hoặc gấp nhiều hơn.
Suspicion Agent vs DON: Thuật toán DON có lập trường tích cực hơn, hầu như luôn nâng cao với các thẻ mạnh hoặc trung gian và không bao giờ gấp.
Đặc vụ nghi ngờ đã phát hiện ra điều này và lần lượt giảm thiểu việc tăng lương của chính mình, chọn cách gọi hoặc gấp nhiều hơn dựa trên hành động của công chúng và DON.
Đại lý nghi ngờ vs NFSP: NFSP thể hiện chiến lược cuộc gọi, chọn luôn gọi và không bao giờ gấp.
Tác nhân nghi ngờ phản ứng bằng cách giảm tần suất lấp đầy và chọn gấp dựa trên các hành động được quan sát bởi cộng đồng và NFSP.
Dựa trên kết quả phân tích trên, có thể thấy rằng Suspicion Agent có khả năng thích ứng cao và có thể khai thác điểm yếu của các chiến lược được áp dụng bởi nhiều thuật toán khác.
Điều này minh họa đầy đủ lý luận và khả năng thích ứng của các mô hình ngôn ngữ lớn trong các trò chơi thông tin không hoàn hảo.
03 Đánh giá định tính
Trong đánh giá định tính, các nhà nghiên cứu đã đánh giá Suspicion Agent trong ba trò chơi trò chơi thông tin không đầy đủ (Coup, Texas Hold'emLimit và Leduc Hold'em).
Đảo chính, bản dịch tiếng Trung là một cuộc đảo chính, một trò chơi bài trong đó người chơi đóng vai các chính trị gia cố gắng lật đổ chế độ của người chơi khác. Mục tiêu của trò chơi là sống sót trong trò chơi và tích lũy sức mạnh.
Texas Hold'em Limit, hay Texas Hold'em Limit, là một trò chơi bài rất phổ biến với một số biến thể. "Giới hạn" có nghĩa là có một giới hạn cố định cho mỗi lần đặt cược, có nghĩa là người chơi chỉ có thể đặt một số tiền cược cố định.
Leduc Hold'em là phiên bản đơn giản hóa của Texas Hold'em để nghiên cứu lý thuyết trò chơi và trí tuệ nhân tạo.
Trong mỗi trường hợp, Đặc vụ nghi ngờ có Jack trong tay, trong khi đối thủ có Jack hoặc Nữ hoàng.
Những người phản đối ban đầu chọn cách gọi thay vì giơ lên, ngụ ý rằng họ có một bàn tay yếu hơn. Theo chiến lược lập kế hoạch thông thường, Nhân viên nghi ngờ chọn cuộc gọi để xem thẻ công khai.
Khi điều này cho thấy tay của đối thủ yếu, đối thủ nhanh chóng tăng tiền cược, khiến Đặc vụ nghi ngờ rơi vào tình huống không ổn định, vì Jack là ván bài yếu nhất.
Theo chiến lược tinh thần lý thuyết bậc nhất, Đặc vụ nghi ngờ chọn cách gấp để giảm thiểu tổn thất. Quyết định này dựa trên quan sát rằng đối thủ thường gọi khi họ có Queen hoặc Jack trong tay.
Tuy nhiên, những chiến lược này không tận dụng được tối đa những điểm yếu đầu cơ của tay đối thủ. Hạn chế này xuất phát từ thực tế là họ không xem xét hành động của Đặc vụ nghi ngờ có thể ảnh hưởng đến phản ứng của đối thủ như thế nào.
Ngược lại, như thể hiện trong Hình 9, những gợi ý đơn giản cho phép Đặc vụ Nghi ngờ hiểu cách tác động đến hành động của kẻ thù. Cố tình chọn cách tăng cao gây áp lực lên đối thủ để gập lại và giảm thiểu tổn thất.
Do đó, ngay cả khi sức mạnh của bàn tay tương tự nhau, Đặc vụ nghi ngờ có thể thắng nhiều trò chơi và do đó giành được nhiều chip hơn đường cơ sở.
Ngoài ra, như thể hiện trong Hình 10, trong trường hợp đối thủ gọi hoặc trả lời tăng lương từ Đặc vụ nghi ngờ (điều này cho thấy tay của đối thủ mạnh), Đặc vụ nghi ngờ sẽ nhanh chóng điều chỉnh chiến lược của mình và chọn gập lại để tránh tổn thất thêm.
Điều này cho thấy sự linh hoạt chiến lược tuyệt vời của Suspicion Agent.
04 Nghiên cứu cắt bỏ và phân tích thành phần
Để khám phá các phương pháp lập kế hoạch nhận thức ToM trật tự khác nhau ảnh hưởng đến hành vi của các mô hình ngôn ngữ lớn như thế nào, các nhà nghiên cứu đã tiến hành các thí nghiệm và so sánh trên Leduc Hold'em và Plaagainst CFR.
Hình 5 cho thấy tỷ lệ phần trăm hành động của các Tác nhân nghi ngờ với kế hoạch cấp ToM khác nhau và kết quả năng suất chip được thể hiện trong Bảng 3.
Bảng 3: So sánh kết quả của Suspicion Agent với môi trường CFRonLeduc Hold'em sử dụng các mức ToM khác nhau và kết quả định lượng sau 100 trò chơi
Nó có thể được quan sát:
Dựa trên kế hoạch mô-đun phản xạ, có xu hướng gọi và chuyền nhiều hơn trong trò chơi (tỷ lệ gọi và chuyền cao nhất so với CFR và DMC), không thể gây áp lực lên đối thủ để gấp và dẫn đến nhiều tổn thất không đáng có.
Tuy nhiên, như thể hiện trong Bảng 3, chương trình Vanilla có mức tăng chip thấp nhất.
Sử dụng ToM bậc nhất, Đặc vụ nghi ngờ có thể đưa ra quyết định dựa trên sức mạnh của chính họ và ước tính sức mạnh của đối thủ.
Kết quả là, nó sẽ tăng gấp nhiều lần so với kế hoạch thông thường, nhưng nó có xu hướng gấp nhiều lần hơn các chiến lược khác để giảm thiểu tổn thất không cần thiết. Tuy nhiên, cách tiếp cận thận trọng này có thể được khai thác bởi các mô hình đối thủ hiểu biết.
Ví dụ, DMC thường tăng khi nắm tay yếu nhất, trong khi CFR đôi khi thậm chí còn tăng khi nắm tay trung gian để gây áp lực lên Tác nhân nghi ngờ. Trong những trường hợp này, xu hướng tăng gấp đôi của Tác nhân nghi ngờ có thể dẫn đến thua lỗ.
Ngược lại, Suspicion Agent tốt hơn trong việc xác định và khai thác các mô hình hành vi trong các mô hình đối thủ.
Cụ thể, khi CFR đã chọn một lá bài (thường biểu thị một ván bài yếu) hoặc khi DMC đã vượt qua (cho thấy bài của nó không phù hợp với thẻ cộng đồng), Đặc vụ nghi ngờ sẽ vô tội vạ để khiến đối thủ gấp.
Kết quả là, Suspicion Agent cho thấy tỷ lệ lấp đầy cao nhất trong số ba phương pháp lập kế hoạch.
Chiến lược tích cực này cho phép Suspicion Agent tích lũy nhiều chip hơn ngay cả với các thẻ yếu, do đó tối đa hóa lợi nhuận của chip.
Để đánh giá tác động của quan sát phía sau, các nhà nghiên cứu đã tiến hành một nghiên cứu cắt bỏ trong đó quan sát phía sau không được tích hợp vào các trò chơi hiện tại.
Như thể hiện trong Bảng 4 và 5, Tác nhân nghi ngờ duy trì lợi thế hiệu suất của nó so với phương pháp cơ bản mà không cần quan sát phía sau.
Bảng 4: Kết quả so sánh minh họa tác động của việc kết hợp các quan sát đối thủ vào lịch sử của bàn tay trong bối cảnh bàn tay Ledek
Bảng 5: Kết quả so sánh cho thấy khi Đặc vụ nghi ngờ thi đấu với CFR trong môi trường Leduc Hold'em, tác động của các quan sát đối thủ được thêm vào lịch sử trò chơi. Kết quả là một con chip thắng thua sau 100 vòng sử dụng các hạt giống khác nhau, với số lượng chip thắng thua dao động từ 1 đến 14
05 Kết luận
Suspicion Agent không được đào tạo chuyên môn và chỉ sử dụng kiến thức và khả năng suy luận trước đó của GPT-4 để đánh bại các thuật toán được đào tạo đặc biệt cho các trò chơi này, chẳng hạn như CFR và NFSP, trong các trò chơi thông tin không đầy đủ khác nhau như Leduc Hold'em.
Điều này cho thấy các mô hình lớn có tiềm năng đạt được hiệu suất mạnh mẽ trong các trò chơi có thông tin không đầy đủ.
Bằng cách tích hợp các mô hình tư duy lý thuyết bậc nhất và thứ hai, Tác nhân nghi ngờ có thể dự đoán hành vi của đối thủ và điều chỉnh chiến lược cho phù hợp. Điều này làm cho nó có thể thích nghi với các loại đối thủ khác nhau.
Suspicion Agent cũng thể hiện khả năng khái quát hóa trên các trò chơi thông tin không đầy đủ khác nhau, cho phép đưa ra quyết định trong các trò chơi như Coup và Texas Hold'em chỉ dựa trên các quy tắc của trò chơi và các quy tắc quan sát.
Nhưng Suspicion Agent cũng có những hạn chế nhất định. Ví dụ, kích thước mẫu của việc đánh giá các thuật toán khác nhau là nhỏ do các ràng buộc về chi phí tính toán.
Cũng như chi phí suy luận cao, chi phí gần 1 đô la cho mỗi trò chơi và đầu ra của Đặc vụ nghi ngờ rất nhạy cảm với lời nhắc, có một vấn đề ảo giác.
Đồng thời, khi nói đến lý luận và tính toán phức tạp, Tác nhân nghi ngờ cũng thực hiện không đạt yêu cầu.
Trong tương lai, Suspicion Agent sẽ cải thiện hiệu quả tính toán, tính mạnh mẽ của lý luận và hỗ trợ lý luận đa phương thức và đa bước để đạt được sự thích ứng tốt hơn với môi trường trò chơi phức tạp.
Đồng thời, việc ứng dụng Suspicion Agent trong các trò chơi trò chơi thông tin không đầy đủ cũng có thể được chuyển sang tích hợp thông tin đa phương thức trong tương lai, mô phỏng các tương tác thực tế hơn và mở rộng sang môi trường trò chơi nhiều người chơi.
Tài nguyên: