يستخدم وكيل الشك من جامعة طوكيو GPT-4 لإظهار نظريات العقل عالية الترتيب (ToM) في ألعاب المعلومات غير المكتملة.
في لعبة معلومات كاملة ، يعرف كل لاعب جميع عناصر المعلومات.
لكن لعبة المعلومات غير المكتملة مختلفة من حيث أنها تحاكي تعقيد اتخاذ القرارات في العالم الحقيقي في ظل معلومات غير مؤكدة أو غير كاملة.
GPT-4 ، باعتباره أقوى نموذج في الوقت الحاضر ، لديه قدرات غير عادية على استرجاع المعرفة والتفكير.
ولكن هل يمكن ل GPT-4 استخدام ما تعلمته للعب ألعاب المعلومات غير المكتملة؟
تحقيقا لهذه الغاية ، قدم الباحثون في جامعة طوكيو عامل الشك ، وهو عامل مبتكر يستخدم قدرات GPT-4 لأداء ألعاب معلومات غير مكتملة.
عنوان الورقة:
في الدراسة ، كان عامل الشك المستند إلى GPT-4 قادرا على تحقيق وظائف مختلفة من خلال هندسة التلميحات المناسبة وأظهر قدرة فائقة على التكيف في سلسلة من ألعاب المعلومات غير المكتملة.
الأهم من ذلك ، أظهر GPT-4 قدرات قوية لنظرية العقل (ToM) أثناء اللعبة.
يمكن ل GPT-4 استخدام فهمه للإدراك البشري للتنبؤ بعمليات تفكير الخصم وقابليته للتأثر وأفعاله.
هذا يعني أن GPT-4 لديه القدرة على فهم الآخرين والتأثير عمدا على سلوكهم مثل البشر.
وبالمثل ، فإن العوامل المستندة إلى GPT-4 تتفوق أيضا على الخوارزميات التقليدية في ألعاب المعلومات غير المكتملة ، مما قد يحفز المزيد من تطبيقات LLM في ألعاب المعلومات غير المكتملة.
01 طريقة التدريب
من أجل تمكين LLM من لعب العديد من ألعاب ألعاب المعلومات غير المكتملة دون تدريب متخصص ، قام الباحثون بتقسيم المهمة بأكملها إلى عدة وحدات كما هو موضح في الشكل أدناه ، مثل مترجم المراقبة وتحليل وضع اللعبة ووحدة التخطيط.
وللتخفيف من مشكلة تضليل LLM في ألعاب المعلومات غير المكتملة ، طور الباحثون أولا تلميحات منظمة لمساعدة LLM على فهم قواعد اللعبة والوضع الحالي.
لكل نوع من أنواع ألعاب المعلومات غير المكتملة ، يمكن كتابة وصف القاعدة المنظمة التالي:
القواعد العامة: مقدمة عن اللعبة وعدد الجولات وقواعد الرهان ؛
وصف الإجراء: (وصف الإجراء 1) ، (وصف الإجراء 2) ......؛
قواعد الفوز والخسارة: شروط الفوز والخسارة أو التعادل ؛
قواعد العائد والفوز والخسارة: المكافآت أو العقوبات للفوز أو الخسارة في لعبة واحدة ؛
قواعد الفوز والخسارة للعبة بأكملها: عدد الألعاب وظروف الفوز والخسارة الإجمالية.
في معظم بيئات ألعاب المعلومات غير المكتملة ، يتم تمثيل حالات اللعبة عادة كقيم رقمية منخفضة المستوى ، مثل متجهات النقر ، لتسهيل التعلم الآلي.
ولكن مع LLM ، يمكن تحويل حالات اللعبة منخفضة المستوى إلى نص لغة طبيعية ، مما يساعد على فهم الأنماط:
وصف الإدخال: نوع الإدخال المستلم، مثل قاموس أو قائمة أو تنسيق آخر، ويصف عدد العناصر في حالة اللعبة واسم كل عنصر؛
وصف العنصر: (وصف العنصر 11، (وصف العنصر 2),....
نصائح الانتقال: مزيد من الإرشادات حول تحويل حالات اللعبة منخفضة المستوى إلى نص.
في ألعاب المعلومات غير المكتملة ، تسهل هذه الصيغة فهم التفاعل مع النموذج.
قدم الباحثون طريقة برمجة عدمية مع وحدة انعكاس مصممة للتحقق تلقائيا من تاريخ المباريات ، مما يمكن LLMs من تعلم وتحسين التخطيط من التجربة التاريخية ، ووحدة تخطيط منفصلة مخصصة لاتخاذ القرارات المقابلة.
ومع ذلك ، غالبا ما تكافح أساليب التخطيط العدمية للتعامل مع عدم اليقين المتأصل في ألعاب المعلومات غير المكتملة ، خاصة عند مواجهة خصوم بارعين في استخدام استراتيجيات الآخرين.
مستوحاة من هذا التكيف ، ابتكر الباحثون نهج تخطيط جديد يسخر قدرات ToM ل LLM لفهم سلوك المعارضين وتعديل الاستراتيجيات وفقا لذلك.
02 التقييم الكمي للتجارب
كما هو موضح في الجدول 1 ، تفوق وكيل الشك على جميع خطوط الأساس ، وحصل وكيل الاشتباه المستند إلى GPT-4 على أعلى متوسط لعدد الرقائق في المقارنة.
توضح هذه النتائج بقوة مزايا استخدام نماذج لغوية كبيرة في مجال ألعاب المعلومات غير المكتملة ، كما توضح فعالية الإطار المقترح.
يوضح الرسم البياني أدناه النسبة المئوية للإجراءات التي اتخذها وكيل الاشتباه ونموذج خط الأساس.
يمكن ملاحظته:
عامل الشك مقابل CFR: خوارزمية CFR هي استراتيجية محافظة تميل إلى أن تكون متحفظة وغالبا ما تطوى عند حمل بطاقات ضعيفة.
نجح وكيل الاشتباه في تحديد هذا النمط واختار بشكل استراتيجي زيادات أكثر تواترا ، مما أدى إلى الضغط على CFRs.
يسمح هذا لوكيل الشك بتجميع المزيد من الرقائق حتى لو كانت بطاقاته ضعيفة أو قابلة للمقارنة مع بطاقات CFR.
وكيل الشك مقابل DMC: يعتمد DMC على خوارزميات البحث ويستخدم استراتيجيات أكثر تنوعا ، بما في ذلك الخداع. غالبا ما يرفع عندما تكون يده أضعف وأقوى.
ردا على ذلك ، قلل وكيل الشك من تكرار الزيادات ، اعتمادا على أيديهم وسلوك DMC الملاحظ ، واختار الاتصال أو طي المزيد.
وكيل الشك مقابل DON: تتخذ خوارزمية DON موقفا أكثر عدوانية ، حيث ترفع دائما بطاقات قوية أو وسيطة ، ولا تطوى أبدا.
اكتشف وكيل الشك هذا ، وقام بدوره بتقليل زياداته الخاصة ، واختار الاتصال أو الطي أكثر بناء على تصرفات الجمهور و DON.
وكيل الشك مقابل NFSP: يعرض NFSP استراتيجية اتصال ، ويختار الاتصال دائما وعدم الطي أبدا.
يستجيب وكيل الاشتباه عن طريق تقليل تكرار عمليات التعبئة واختيار الطي بناء على الإجراءات التي يلاحظها المجتمع و NFSP.
بناء على نتائج التحليل المذكورة أعلاه ، يمكن ملاحظة أن Suspect Agent قابل للتكيف بدرجة كبيرة ويمكنه استغلال نقاط الضعف في الاستراتيجيات التي اعتمدتها مختلف الخوارزميات الأخرى.
يوضح هذا تماما منطق نماذج اللغة الكبيرة وقدرتها على التكيف في ألعاب المعلومات غير الكاملة.
03 التقييم النوعي
في التقييم النوعي ، قام الباحثون بتقييم Suspect Agent في ثلاث ألعاب معلومات غير مكتملة (Coup و Texas Hold'emLimit و Leduc Hold'em).
الانقلاب ، الترجمة الصينية هي انقلاب ، لعبة ورق يلعب فيها اللاعبون كسياسيين يحاولون الإطاحة بأنظمة اللاعبين الآخرين. الهدف من اللعبة هو البقاء على قيد الحياة في اللعبة وتجميع القوة.
Texas Hold'em Limit ، أو Texas Hold'em Limit ، هي لعبة ورق شائعة جدا مع العديد من المتغيرات. "الحد" يعني أن هناك سقفا ثابتا لكل رهان ، مما يعني أنه لا يمكن للاعبين سوى وضع مبلغ ثابت من الرهانات.
Leduc Hold'em هي نسخة مبسطة من Texas Hold'em لدراسة نظرية الألعاب والذكاء الاصطناعي.
في كل حالة ، يكون لدى وكيل الشك جاك في أيديهم ، بينما يكون لدى الخصم إما جاك أو ملكة.
يختار المعارضون في البداية الاتصال بدلا من الرفع ، مما يعني أن لديهم يدا أضعف. بموجب استراتيجية التخطيط العادية ، يختار وكيل الاشتباه مكالمة لعرض البطاقات العامة.
عندما يكشف هذا أن يد الخصم ضعيفة ، يرفع الخصم الرهان بسرعة ، تاركا وكيل الشك في وضع غير مستقر ، لأن جاك هو أضعف يد.
في إطار الاستراتيجية العقلية النظرية من الدرجة الأولى ، يختار وكيل الشك الطي من أجل تقليل الخسائر. يعتمد هذا القرار على ملاحظة أن المعارضين يتصلون عادة عندما يكون لديهم Queen أو Jack في أيديهم.
ومع ذلك ، فشلت هذه الاستراتيجيات في الاستفادة الكاملة من نقاط الضعف المضاربة في يد الخصم. ينبع هذا العيب من حقيقة أنهم لا يفكرون في كيفية تأثير تصرفات وكيل الشك على رد فعل الخصم.
في المقابل ، كما هو موضح في الشكل 9 ، تسمح التلميحات البسيطة لوكيل الشك بفهم كيفية التأثير على تصرفات الخصم. يؤدي اختيار الرفع عمدا إلى الضغط على الخصوم لطي الخسائر وتقليلها.
لذلك ، حتى لو كانت قوة اليدين متشابهة ، فإن وكيل الشك قادر على الفوز بالعديد من الألعاب وبالتالي الفوز برقائق أكثر من خط الأساس.
بالإضافة إلى ذلك ، كما هو موضح في الشكل 10 ، في حالة استدعاء الخصم أو استجابته لزيادة من وكيل الشك (مما يشير إلى أن يد الخصم قوية) ، يقوم وكيل الشك بتعديل استراتيجيته بسرعة ويختار الطي لمنع المزيد من الخسائر.
هذا يدل على المرونة الاستراتيجية الممتازة لعامل الشك.
04 دراسات الاجتثاث وتحليل المكونات
لاستكشاف كيفية تأثير طرق تخطيط إدراك ToM ذات الترتيب المختلف على سلوك نماذج اللغة الكبيرة ، أجرى الباحثون تجارب ومقارنات على Leduc Hold'em و plaagainst CFR.
يوضح الشكل 5 النسبة المئوية لإجراءات وكلاء الاشتباه مع تخطيط مختلف لمستوى ToM ، وتظهر نتائج عائد الرقائق في الجدول 3.
الجدول 3: نتائج مقارنة عامل الاشتباه مقابل بيئات CFRonLeduc Hold'em باستخدام مستويات مختلفة من ToM ونتائج القياس الكمي بعد 100 لعبة
يمكن ملاحظته:
استنادا إلى خطة وحدة الانعكاس ، هناك ميل للاتصال وتمرير المزيد أثناء اللعبة (أعلى نسبة من المكالمات والتمرير ضد CFR و DMC) ، والتي لا يمكن أن تمارس الضغط على الخصم للطي وتؤدي إلى العديد من الخسائر غير الضرورية.
ومع ذلك ، كما هو موضح في الجدول 3 ، فإن برنامج Vanilla لديه أقل مكاسب رقاقة.
باستخدام ToM من الدرجة الأولى ، يكون وكيل الشك قادرا على اتخاذ القرارات بناء على قوته وتقديرات قوة خصمه.
نتيجة لذلك ، ستثير مرات أكثر من الخطة العادية ، لكنها تميل إلى الطي مرات أكثر من الاستراتيجيات الأخرى من أجل تقليل الخسائر غير الضرورية. ومع ذلك ، يمكن استغلال هذا النهج الحذر من قبل النماذج المنافسة الذكية.
على سبيل المثال ، غالبا ما ترفع DMC عند الإمساك بأضعف يد ، بينما ترفع CFR أحيانا عند الإمساك بيد وسيطة للضغط على وكيل الشك. في هذه الحالات ، يمكن أن يؤدي ميل وكيل الشك إلى مضاعفة الخسائر إلى خسائر.
في المقابل ، فإن عامل الشك أفضل في تحديد واستغلال أنماط السلوك في النماذج المنافسة.
على وجه التحديد ، عندما يختار CFR بطاقة (عادة ما تشير إلى يد ضعيفة) أو عندما يمر DMC (يشير إلى أن يده لا تتوافق مع بطاقة المجتمع) ، فإن وكيل الشك سوف يخدع لحث الخصم على الطي.
نتيجة لذلك ، أظهر وكيل الاشتباه أعلى معدل ملء بين طرق التخطيط الثلاث.
تسمح هذه الإستراتيجية العدوانية لعامل الشك بتجميع المزيد من الرقائق حتى مع البطاقات الضعيفة ، وبالتالي زيادة مكاسب الرقائق.
لتقييم آثار مراقبة الرؤية الخلفية ، أجرى الباحثون دراسة استئصال لم يتم فيها دمج مراقبة الرؤية الخلفية في الألعاب الحالية.
كما هو موضح في الجدولين 4 و 5 ، يحافظ عامل الاشتباه على ميزة أدائه على طريقة خط الأساس دون مراقبة الرؤية الخلفية.
الجدول 4: توضح النتائج المقارنة تأثير دمج ملاحظات الخصم في تاريخ اليد في سياق يد ليديك
الجدول 5: تظهر نتائج المقارنة أنه عندما يلعب وكيل الاشتباه ضد CFR في بيئة Leduc Hold'em ، تتم إضافة تأثير ملاحظات الخصم إلى تاريخ اللعبة. والنتيجة هي رقاقة رابحة وخاسرة بعد 100 جولة باستخدام بذور مختلفة ، حيث يتراوح عدد الرقائق الفائزة والخاسرة من 1 إلى 14
05 خاتمة
لا يمتلك Suspect Agent أي تدريب متخصص ، ويستخدم فقط المعرفة المسبقة ل GPT-4 وقدرته على التفكير لهزيمة الخوارزميات المدربة خصيصا لهذه الألعاب ، مثل CFR و NFSP ، في ألعاب معلومات غير مكتملة مختلفة مثل Leduc Hold'em.
هذا يدل على أن النماذج الكبيرة لديها القدرة على تحقيق أداء قوي في الألعاب ذات المعلومات غير المكتملة.
من خلال دمج النماذج العقلية النظرية من الدرجة الأولى والثانية ، يمكن لعامل الشك التنبؤ بسلوك خصومه وتعديل استراتيجيته وفقا لذلك. هذا يجعل من الممكن التكيف مع أنواع مختلفة من المعارضين.
يوضح Suspicion Agent أيضا القدرة على التعميم عبر ألعاب المعلومات غير المكتملة المختلفة ، مما يسمح باتخاذ القرارات في ألعاب مثل Coup و Texas Hold'em بناء على قواعد اللعبة وقواعد الملاحظة فقط.
لكن وكيل الشك لديه أيضا قيود معينة. على سبيل المثال ، حجم عينة تقييم الخوارزميات المختلفة صغير بسبب قيود التكلفة الحسابية.
بالإضافة إلى التكلفة العالية للاستدلال ، والتي تكلف ما يقرب من 1 دولار لكل لعبة ، وإخراج وكيل الشك حساس للغاية للمطالبات ، هناك مشكلة هلوسة.
في الوقت نفسه ، عندما يتعلق الأمر بالتفكير والحسابات المعقدة ، فإن وكيل الشك يؤدي أيضا بشكل غير مرض.
في المستقبل ، سيعمل Suspect Agent على تحسين الكفاءة الحسابية ، وقوة التفكير ، ودعم التفكير متعدد الوسائط ومتعدد الخطوات لتحقيق تكيف أفضل مع بيئات الألعاب المعقدة.
في الوقت نفسه ، يمكن أيضا ترحيل تطبيق Suspicion Agent في ألعاب ألعاب المعلومات غير المكتملة إلى تكامل المعلومات متعددة الوسائط في المستقبل ، ومحاكاة تفاعلات أكثر واقعية والتوسع إلى بيئات الألعاب متعددة اللاعبين.
موارد:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
يستخدم GPT-4 "نظرية العقل" للعب كيفية التغلب على البشر
المؤلف: شين جي يوان
يستخدم وكيل الشك من جامعة طوكيو GPT-4 لإظهار نظريات العقل عالية الترتيب (ToM) في ألعاب المعلومات غير المكتملة.
في لعبة معلومات كاملة ، يعرف كل لاعب جميع عناصر المعلومات.
لكن لعبة المعلومات غير المكتملة مختلفة من حيث أنها تحاكي تعقيد اتخاذ القرارات في العالم الحقيقي في ظل معلومات غير مؤكدة أو غير كاملة.
GPT-4 ، باعتباره أقوى نموذج في الوقت الحاضر ، لديه قدرات غير عادية على استرجاع المعرفة والتفكير.
ولكن هل يمكن ل GPT-4 استخدام ما تعلمته للعب ألعاب المعلومات غير المكتملة؟
تحقيقا لهذه الغاية ، قدم الباحثون في جامعة طوكيو عامل الشك ، وهو عامل مبتكر يستخدم قدرات GPT-4 لأداء ألعاب معلومات غير مكتملة.
عنوان الورقة:
في الدراسة ، كان عامل الشك المستند إلى GPT-4 قادرا على تحقيق وظائف مختلفة من خلال هندسة التلميحات المناسبة وأظهر قدرة فائقة على التكيف في سلسلة من ألعاب المعلومات غير المكتملة.
الأهم من ذلك ، أظهر GPT-4 قدرات قوية لنظرية العقل (ToM) أثناء اللعبة.
يمكن ل GPT-4 استخدام فهمه للإدراك البشري للتنبؤ بعمليات تفكير الخصم وقابليته للتأثر وأفعاله.
هذا يعني أن GPT-4 لديه القدرة على فهم الآخرين والتأثير عمدا على سلوكهم مثل البشر.
وبالمثل ، فإن العوامل المستندة إلى GPT-4 تتفوق أيضا على الخوارزميات التقليدية في ألعاب المعلومات غير المكتملة ، مما قد يحفز المزيد من تطبيقات LLM في ألعاب المعلومات غير المكتملة.
01 طريقة التدريب
من أجل تمكين LLM من لعب العديد من ألعاب ألعاب المعلومات غير المكتملة دون تدريب متخصص ، قام الباحثون بتقسيم المهمة بأكملها إلى عدة وحدات كما هو موضح في الشكل أدناه ، مثل مترجم المراقبة وتحليل وضع اللعبة ووحدة التخطيط.
وللتخفيف من مشكلة تضليل LLM في ألعاب المعلومات غير المكتملة ، طور الباحثون أولا تلميحات منظمة لمساعدة LLM على فهم قواعد اللعبة والوضع الحالي.
لكل نوع من أنواع ألعاب المعلومات غير المكتملة ، يمكن كتابة وصف القاعدة المنظمة التالي:
القواعد العامة: مقدمة عن اللعبة وعدد الجولات وقواعد الرهان ؛
وصف الإجراء: (وصف الإجراء 1) ، (وصف الإجراء 2) ......؛
قواعد الفوز والخسارة: شروط الفوز والخسارة أو التعادل ؛
قواعد العائد والفوز والخسارة: المكافآت أو العقوبات للفوز أو الخسارة في لعبة واحدة ؛
قواعد الفوز والخسارة للعبة بأكملها: عدد الألعاب وظروف الفوز والخسارة الإجمالية.
في معظم بيئات ألعاب المعلومات غير المكتملة ، يتم تمثيل حالات اللعبة عادة كقيم رقمية منخفضة المستوى ، مثل متجهات النقر ، لتسهيل التعلم الآلي.
ولكن مع LLM ، يمكن تحويل حالات اللعبة منخفضة المستوى إلى نص لغة طبيعية ، مما يساعد على فهم الأنماط:
وصف الإدخال: نوع الإدخال المستلم، مثل قاموس أو قائمة أو تنسيق آخر، ويصف عدد العناصر في حالة اللعبة واسم كل عنصر؛
وصف العنصر: (وصف العنصر 11، (وصف العنصر 2),....
نصائح الانتقال: مزيد من الإرشادات حول تحويل حالات اللعبة منخفضة المستوى إلى نص.
! [beyfMqHmFbURoO6EQO5AoTFYhrYUnnA6gLdnZWWU.png] (https://img-cdn.gateio.im/webp-social/moments-40baef27dd-0c01564118-dd1a6f-69ad2a.webp "7115940")
في ألعاب المعلومات غير المكتملة ، تسهل هذه الصيغة فهم التفاعل مع النموذج.
قدم الباحثون طريقة برمجة عدمية مع وحدة انعكاس مصممة للتحقق تلقائيا من تاريخ المباريات ، مما يمكن LLMs من تعلم وتحسين التخطيط من التجربة التاريخية ، ووحدة تخطيط منفصلة مخصصة لاتخاذ القرارات المقابلة.
ومع ذلك ، غالبا ما تكافح أساليب التخطيط العدمية للتعامل مع عدم اليقين المتأصل في ألعاب المعلومات غير المكتملة ، خاصة عند مواجهة خصوم بارعين في استخدام استراتيجيات الآخرين.
مستوحاة من هذا التكيف ، ابتكر الباحثون نهج تخطيط جديد يسخر قدرات ToM ل LLM لفهم سلوك المعارضين وتعديل الاستراتيجيات وفقا لذلك.
02 التقييم الكمي للتجارب
كما هو موضح في الجدول 1 ، تفوق وكيل الشك على جميع خطوط الأساس ، وحصل وكيل الاشتباه المستند إلى GPT-4 على أعلى متوسط لعدد الرقائق في المقارنة.
توضح هذه النتائج بقوة مزايا استخدام نماذج لغوية كبيرة في مجال ألعاب المعلومات غير المكتملة ، كما توضح فعالية الإطار المقترح.
يوضح الرسم البياني أدناه النسبة المئوية للإجراءات التي اتخذها وكيل الاشتباه ونموذج خط الأساس.
يمكن ملاحظته:
عامل الشك مقابل CFR: خوارزمية CFR هي استراتيجية محافظة تميل إلى أن تكون متحفظة وغالبا ما تطوى عند حمل بطاقات ضعيفة.
نجح وكيل الاشتباه في تحديد هذا النمط واختار بشكل استراتيجي زيادات أكثر تواترا ، مما أدى إلى الضغط على CFRs.
يسمح هذا لوكيل الشك بتجميع المزيد من الرقائق حتى لو كانت بطاقاته ضعيفة أو قابلة للمقارنة مع بطاقات CFR.
وكيل الشك مقابل DMC: يعتمد DMC على خوارزميات البحث ويستخدم استراتيجيات أكثر تنوعا ، بما في ذلك الخداع. غالبا ما يرفع عندما تكون يده أضعف وأقوى.
ردا على ذلك ، قلل وكيل الشك من تكرار الزيادات ، اعتمادا على أيديهم وسلوك DMC الملاحظ ، واختار الاتصال أو طي المزيد.
وكيل الشك مقابل DON: تتخذ خوارزمية DON موقفا أكثر عدوانية ، حيث ترفع دائما بطاقات قوية أو وسيطة ، ولا تطوى أبدا.
اكتشف وكيل الشك هذا ، وقام بدوره بتقليل زياداته الخاصة ، واختار الاتصال أو الطي أكثر بناء على تصرفات الجمهور و DON.
وكيل الشك مقابل NFSP: يعرض NFSP استراتيجية اتصال ، ويختار الاتصال دائما وعدم الطي أبدا.
يستجيب وكيل الاشتباه عن طريق تقليل تكرار عمليات التعبئة واختيار الطي بناء على الإجراءات التي يلاحظها المجتمع و NFSP.
بناء على نتائج التحليل المذكورة أعلاه ، يمكن ملاحظة أن Suspect Agent قابل للتكيف بدرجة كبيرة ويمكنه استغلال نقاط الضعف في الاستراتيجيات التي اعتمدتها مختلف الخوارزميات الأخرى.
يوضح هذا تماما منطق نماذج اللغة الكبيرة وقدرتها على التكيف في ألعاب المعلومات غير الكاملة.
03 التقييم النوعي
في التقييم النوعي ، قام الباحثون بتقييم Suspect Agent في ثلاث ألعاب معلومات غير مكتملة (Coup و Texas Hold'emLimit و Leduc Hold'em).
الانقلاب ، الترجمة الصينية هي انقلاب ، لعبة ورق يلعب فيها اللاعبون كسياسيين يحاولون الإطاحة بأنظمة اللاعبين الآخرين. الهدف من اللعبة هو البقاء على قيد الحياة في اللعبة وتجميع القوة.
Texas Hold'em Limit ، أو Texas Hold'em Limit ، هي لعبة ورق شائعة جدا مع العديد من المتغيرات. "الحد" يعني أن هناك سقفا ثابتا لكل رهان ، مما يعني أنه لا يمكن للاعبين سوى وضع مبلغ ثابت من الرهانات.
Leduc Hold'em هي نسخة مبسطة من Texas Hold'em لدراسة نظرية الألعاب والذكاء الاصطناعي.
في كل حالة ، يكون لدى وكيل الشك جاك في أيديهم ، بينما يكون لدى الخصم إما جاك أو ملكة.
يختار المعارضون في البداية الاتصال بدلا من الرفع ، مما يعني أن لديهم يدا أضعف. بموجب استراتيجية التخطيط العادية ، يختار وكيل الاشتباه مكالمة لعرض البطاقات العامة.
عندما يكشف هذا أن يد الخصم ضعيفة ، يرفع الخصم الرهان بسرعة ، تاركا وكيل الشك في وضع غير مستقر ، لأن جاك هو أضعف يد.
في إطار الاستراتيجية العقلية النظرية من الدرجة الأولى ، يختار وكيل الشك الطي من أجل تقليل الخسائر. يعتمد هذا القرار على ملاحظة أن المعارضين يتصلون عادة عندما يكون لديهم Queen أو Jack في أيديهم.
ومع ذلك ، فشلت هذه الاستراتيجيات في الاستفادة الكاملة من نقاط الضعف المضاربة في يد الخصم. ينبع هذا العيب من حقيقة أنهم لا يفكرون في كيفية تأثير تصرفات وكيل الشك على رد فعل الخصم.
في المقابل ، كما هو موضح في الشكل 9 ، تسمح التلميحات البسيطة لوكيل الشك بفهم كيفية التأثير على تصرفات الخصم. يؤدي اختيار الرفع عمدا إلى الضغط على الخصوم لطي الخسائر وتقليلها.
لذلك ، حتى لو كانت قوة اليدين متشابهة ، فإن وكيل الشك قادر على الفوز بالعديد من الألعاب وبالتالي الفوز برقائق أكثر من خط الأساس.
بالإضافة إلى ذلك ، كما هو موضح في الشكل 10 ، في حالة استدعاء الخصم أو استجابته لزيادة من وكيل الشك (مما يشير إلى أن يد الخصم قوية) ، يقوم وكيل الشك بتعديل استراتيجيته بسرعة ويختار الطي لمنع المزيد من الخسائر.
هذا يدل على المرونة الاستراتيجية الممتازة لعامل الشك.
04 دراسات الاجتثاث وتحليل المكونات
لاستكشاف كيفية تأثير طرق تخطيط إدراك ToM ذات الترتيب المختلف على سلوك نماذج اللغة الكبيرة ، أجرى الباحثون تجارب ومقارنات على Leduc Hold'em و plaagainst CFR.
يوضح الشكل 5 النسبة المئوية لإجراءات وكلاء الاشتباه مع تخطيط مختلف لمستوى ToM ، وتظهر نتائج عائد الرقائق في الجدول 3.
الجدول 3: نتائج مقارنة عامل الاشتباه مقابل بيئات CFRonLeduc Hold'em باستخدام مستويات مختلفة من ToM ونتائج القياس الكمي بعد 100 لعبة
يمكن ملاحظته:
استنادا إلى خطة وحدة الانعكاس ، هناك ميل للاتصال وتمرير المزيد أثناء اللعبة (أعلى نسبة من المكالمات والتمرير ضد CFR و DMC) ، والتي لا يمكن أن تمارس الضغط على الخصم للطي وتؤدي إلى العديد من الخسائر غير الضرورية.
ومع ذلك ، كما هو موضح في الجدول 3 ، فإن برنامج Vanilla لديه أقل مكاسب رقاقة.
باستخدام ToM من الدرجة الأولى ، يكون وكيل الشك قادرا على اتخاذ القرارات بناء على قوته وتقديرات قوة خصمه.
نتيجة لذلك ، ستثير مرات أكثر من الخطة العادية ، لكنها تميل إلى الطي مرات أكثر من الاستراتيجيات الأخرى من أجل تقليل الخسائر غير الضرورية. ومع ذلك ، يمكن استغلال هذا النهج الحذر من قبل النماذج المنافسة الذكية.
على سبيل المثال ، غالبا ما ترفع DMC عند الإمساك بأضعف يد ، بينما ترفع CFR أحيانا عند الإمساك بيد وسيطة للضغط على وكيل الشك. في هذه الحالات ، يمكن أن يؤدي ميل وكيل الشك إلى مضاعفة الخسائر إلى خسائر.
في المقابل ، فإن عامل الشك أفضل في تحديد واستغلال أنماط السلوك في النماذج المنافسة.
على وجه التحديد ، عندما يختار CFR بطاقة (عادة ما تشير إلى يد ضعيفة) أو عندما يمر DMC (يشير إلى أن يده لا تتوافق مع بطاقة المجتمع) ، فإن وكيل الشك سوف يخدع لحث الخصم على الطي.
نتيجة لذلك ، أظهر وكيل الاشتباه أعلى معدل ملء بين طرق التخطيط الثلاث.
تسمح هذه الإستراتيجية العدوانية لعامل الشك بتجميع المزيد من الرقائق حتى مع البطاقات الضعيفة ، وبالتالي زيادة مكاسب الرقائق.
لتقييم آثار مراقبة الرؤية الخلفية ، أجرى الباحثون دراسة استئصال لم يتم فيها دمج مراقبة الرؤية الخلفية في الألعاب الحالية.
كما هو موضح في الجدولين 4 و 5 ، يحافظ عامل الاشتباه على ميزة أدائه على طريقة خط الأساس دون مراقبة الرؤية الخلفية.
الجدول 4: توضح النتائج المقارنة تأثير دمج ملاحظات الخصم في تاريخ اليد في سياق يد ليديك
الجدول 5: تظهر نتائج المقارنة أنه عندما يلعب وكيل الاشتباه ضد CFR في بيئة Leduc Hold'em ، تتم إضافة تأثير ملاحظات الخصم إلى تاريخ اللعبة. والنتيجة هي رقاقة رابحة وخاسرة بعد 100 جولة باستخدام بذور مختلفة ، حيث يتراوح عدد الرقائق الفائزة والخاسرة من 1 إلى 14
05 خاتمة
لا يمتلك Suspect Agent أي تدريب متخصص ، ويستخدم فقط المعرفة المسبقة ل GPT-4 وقدرته على التفكير لهزيمة الخوارزميات المدربة خصيصا لهذه الألعاب ، مثل CFR و NFSP ، في ألعاب معلومات غير مكتملة مختلفة مثل Leduc Hold'em.
هذا يدل على أن النماذج الكبيرة لديها القدرة على تحقيق أداء قوي في الألعاب ذات المعلومات غير المكتملة.
من خلال دمج النماذج العقلية النظرية من الدرجة الأولى والثانية ، يمكن لعامل الشك التنبؤ بسلوك خصومه وتعديل استراتيجيته وفقا لذلك. هذا يجعل من الممكن التكيف مع أنواع مختلفة من المعارضين.
يوضح Suspicion Agent أيضا القدرة على التعميم عبر ألعاب المعلومات غير المكتملة المختلفة ، مما يسمح باتخاذ القرارات في ألعاب مثل Coup و Texas Hold'em بناء على قواعد اللعبة وقواعد الملاحظة فقط.
لكن وكيل الشك لديه أيضا قيود معينة. على سبيل المثال ، حجم عينة تقييم الخوارزميات المختلفة صغير بسبب قيود التكلفة الحسابية.
بالإضافة إلى التكلفة العالية للاستدلال ، والتي تكلف ما يقرب من 1 دولار لكل لعبة ، وإخراج وكيل الشك حساس للغاية للمطالبات ، هناك مشكلة هلوسة.
في الوقت نفسه ، عندما يتعلق الأمر بالتفكير والحسابات المعقدة ، فإن وكيل الشك يؤدي أيضا بشكل غير مرض.
في المستقبل ، سيعمل Suspect Agent على تحسين الكفاءة الحسابية ، وقوة التفكير ، ودعم التفكير متعدد الوسائط ومتعدد الخطوات لتحقيق تكيف أفضل مع بيئات الألعاب المعقدة.
في الوقت نفسه ، يمكن أيضا ترحيل تطبيق Suspicion Agent في ألعاب ألعاب المعلومات غير المكتملة إلى تكامل المعلومات متعددة الوسائط في المستقبل ، ومحاكاة تفاعلات أكثر واقعية والتوسع إلى بيئات الألعاب متعددة اللاعبين.
موارد: