Доктор Донгда попросив GPT-4 використовувати «теорію розуму», щоб грати в Depu і перемагати традиційні алгоритми та розчавлювати людей-новачків

Автор: Шин Чжиюань, джерело: Серце Метавсесвіту

Агент підозри з Токійського університету використовує GPT-4 для демонстрації теорій розуму високого порядку (ToM) у неповних інформаційних іграх.

У повній інформаційній грі кожен гравець знає всі елементи інформації.

Але гра з неповною інформацією відрізняється тим, що вона імітує складність прийняття рішень в реальному світі в умовах невизначеної або неповної інформації.

GPT-4, як найпотужніша модель на даний момент, має надзвичайні можливості пошуку знань і міркувань.

Але чи може GPT-4 використовувати те, чого він навчився, щоб грати в ігри з неповною інформацією?

З цією метою дослідники з Токійського університету представили Suspicion Agent – інноваційний агент, який використовує можливості GPT-4 для виконання неповних інформаційних ігор.

Паперова адреса:

У дослідженні Suspicion Agent на основі GPT-4 зміг досягти різних функцій за допомогою належної інженерії підказок і продемонстрував чудову адаптивність у серії неповних інформаційних ігор.

Найголовніше, що GPT-4 продемонстрував сильні можливості теорії розуму вищого порядку (ToM) під час гри.

GPT-4 може використовувати своє розуміння людського пізнання, щоб передбачити розумові процеси, сприйнятливість і дії супротивника.

Це означає, що GPT-4 має здатність розуміти інших і навмисно впливати на їхню поведінку, як люди.

Аналогічним чином, агенти на основі GPT-4 також перевершують традиційні алгоритми в неповних інформаційних іграх, що може стимулювати більше застосувань LLM в неповних інформаційних іграх.

01 Методика навчання

Для того, щоб дозволити LLM грати в різні неповні інформаційні ігри без спеціальної підготовки, дослідники розбили все завдання на кілька модулів, як показано на малюнку нижче, таких як інтерпретатор спостереження, аналіз ігрового режиму та модуль планування.

І, щоб пом'якшити проблему того, що LLM може бути введений в оману в неповних інформаційних іграх, дослідники спочатку розробили структуровані підказки, які допоможуть LLM зрозуміти правила гри та поточний стан.

Для кожного виду гри з неповною інформацією можна написати наступний структурований опис правила:

Загальні правила: введення в гру, кількість раундів і правила ставок;

Опис дії: (Опис дії 1), (Опис дії 2)......;

Правила виграшу-програшу: умови виграшу-програшу або нічиєї;

Правила повернення виграшу-програшу: нагороди або штрафи за перемогу або поразку в одній грі;

Правила перемог і поразок у всій грі: кількість геймів і загальні умови виграшу-програшу.

У більшості ігрових середовищ з неповною інформацією ігрові стани зазвичай представлені у вигляді низькорівневих числових значень, таких як вектори кліків, для полегшення машинного навчання.

Але за допомогою LLM низькорівневі стани гри можуть бути перетворені в текст природною мовою, тим самим допомагаючи зрозуміти закономірності:

Опис вхідних даних: тип отриманого введення, наприклад, словник, список або інший формат, і описує кількість елементів у стані гри та назву кожного елемента;

Опис елемента: (Опис елемента 11, (опис елемента 2),....

Поради щодо переходу: додаткові вказівки щодо перетворення низькорівневих станів гри на текст.

! [beyfMqHmFbURoO6EQO5AoTFYhrYUnnA6gLdnZWWU.png] (https://img-cdn.gateio.im/webp-social/moments-901ff9e656-f8e9c07fe4-dd1a6f-69ad2a.webp «7115940»)

У неповних інформаційних іграх таке формулювання полегшує розуміння взаємодії з моделлю.

Дослідники представили нігілістичний метод програмування з модулем Reflexion, призначеним для автоматичної перевірки історії збігів, що дозволяє LLM вчитися та покращувати планування на основі історичного досвіду, та окремим модулем планування, присвяченим прийняттю відповідних рішень.

Однак нігілістичні методи планування часто намагаються впоратися з невизначеністю, властивою неповним інформаційним іграм, особливо коли стикаються з опонентами, які вміють використовувати стратегії інших.

Натхненні цією адаптацією, дослідники розробили новий підхід до планування, який використовує можливості ToM LLM для розуміння поведінки опонентів і відповідного коригування стратегій.

02 Кількісна оцінка експериментів

Як показано в таблиці 1, Suspicion Agent перевершив усі базові показники, а Suspicion Agent на основі GPT-4 отримав найвищу середню кількість чіпів у порівнянні.

Отримані результати переконливо демонструють переваги використання великих мовних моделей у сфері неповних інформаційних ігор, а також демонструють ефективність запропонованої структури.

На графіку нижче показано відсоток дій, виконаних підозрілим агентом, і базову модель.

Вона може спостерігатися:

Підозрілий агент проти CFR: Алгоритм CFR - це консервативна стратегія, яка, як правило, консервативна і часто скидає, коли тримає слабкі карти.

Підозрілий агент успішно визначив цю закономірність і стратегічно обрав частіше підвищення, чинячи тиск на CFR.

Це дозволяє підозрілому агенту накопичувати більше фішок, навіть якщо його карти слабкі або порівнянні з картами CFR.

Suspicion Agent vs DMC: DMC заснований на пошукових алгоритмах і використовує більш різноманітні стратегії, включаючи блеф. Він часто піднімається, коли його рука найслабша і найсильніша.

У відповідь підозрілий агент зменшив частоту підвищень, залежно від власних рук і спостережуваної поведінки DMC, і вирішив більше колити або скидати.

Suspicion Agent vs DON: Алгоритм DON займає більш агресивну позицію, майже завжди роблячи рейз сильними або проміжними картами, і ніколи не скидаючи.

Підозрілий агент виявив це і, в свою чергу, мінімізував власні підвищення, вирішивши зробити кол або скинути більше, виходячи з дій громадськості та DON.

Підозрілий агент проти NFSP: NFSP демонструє стратегію колл, вибираючи завжди кол і ніколи не скидаючи.

Підозрілий агент реагує, зменшуючи частоту заповнень і вибираючи фолд на основі дій, за якими спостерігає спільнота та NFSP.

Виходячи з наведених вище результатів аналізу, можна побачити, що Suspicion Agent має високу адаптивність і може використовувати слабкі сторони стратегій, прийнятих різними іншими алгоритмами.

Це в повній мірі ілюструє міркування і адаптивність великих мовних моделей в недосконалих інформаційних іграх.

03 Якісна оцінка

У якісній оцінці дослідники оцінювали Suspicion Agent у трьох неповних інформаційних іграх (Coup, Texas Hold'emLimit і Leduc Hold'em).

Переворот, китайський переклад — це переворот, карткова гра, в якій гравці грають за політиків, які намагаються повалити режими інших гравців. Мета гри - вижити в грі і накопичити силу.

Техаський Холдем Ліміт, або Техаський Холдем Ліміт - дуже популярна карткова гра з декількома варіантами. "Ліміт" означає, що на кожну ставку встановлено фіксований ліміт, що означає, що гравці можуть робити лише фіксовану кількість ставок.

Leduc Hold'em – це спрощена версія техаського холдему для вивчення теорії ігор та штучного інтелекту.

У кожному випадку підозрілий агент має валета в руках, а опонент має або валета, або даму.

Опоненти спочатку вибирають кол, а не рейз, маючи на увазі, що у них слабша рука. Згідно зі звичайною стратегією планування, підозрілий агент вибирає дзвінок для перегляду публічних карток.

Коли це показує, що рука опонента слабка, опонент швидко підвищує ставку, залишаючи підозрілого агента в нестабільній ситуації, оскільки Валет є найслабшою рукою.

Згідно з теоретичною ментальною стратегією першого порядку, підозрілий агент вирішує скинути карти, щоб мінімізувати втрати. Це рішення ґрунтується на спостереженні, що опоненти зазвичай роблять кол, коли у них на руках ферзь або валет.

Однак ці стратегії не в змозі повною мірою використовувати спекулятивні слабкості руки опонента. Цей недолік пов'язаний з тим, що вони не враховують, як дії підозрюваного агента можуть вплинути на реакцію опонента.

На противагу цьому, як показано на малюнку 9, прості підказки дозволяють підозрілому агенту зрозуміти, як впливати на дії супротивника. Навмисний вибір підвищення чинить тиск на опонентів, щоб вони скинули карти та мінімізували втрати.

Тому, навіть якщо сила рук однакова, підозрілий агент здатний виграти багато геймів і, таким чином, виграти більше фішок, ніж базова лінія.

Крім того, як показано на малюнку 10, у разі колу опонента або відповіді на рейз від підозрілого агента (що вказує на те, що рука опонента сильна), підозрілий агент швидко коригує свою стратегію і вирішує скинути карти, щоб запобігти подальшим втратам.

Це свідчить про чудову стратегічну гнучкість Suspicion Agent.

04 Абляційні дослідження та компонентний аналіз

Щоб з'ясувати, як різні методи планування сприйняття ToM впливають на поведінку великих мовних моделей, дослідники провели експерименти та порівняння на Leduc Hold'em та plaagainst CFR.

На рисунку 5 показано відсоток дій підозрілих агентів з різним плануванням рівня ToM, а результати виходу чіпа наведені в таблиці 3.

Таблиця 3: Порівняння результатів Suspicion Agent з середовищами CFRonLeduc Hold'em з використанням різних рівнів ToM та кількісних результатів після 100 ігор

Вона може спостерігатися:

Виходячи з плану модуля Reflexion, існує тенденція робити кол і віддавати більше пасів під час гри (найвищий відсоток коллів і пасів проти CFR і DMC), що не може чинити тиск на опонента, щоб він скинув карти, і призводить до безлічі непотрібних втрат.

Однак, як показано в таблиці 3, програма Vanilla має найнижчий приріст чіпів.

Використовуючи ToM першого порядку, Підозрілий агент може приймати рішення, ґрунтуючись на власних силах та оцінках сили свого опонента.

В результаті він буде піднімати більше разів, ніж звичайний план, але він, як правило, згортається більше разів, ніж інші стратегії, щоб мінімізувати непотрібні втрати. Однак цей обережний підхід може бути використаний кмітливими конкуруючими моделями.

Наприклад, DMC часто піднімається, коли тримає найслабшу руку, тоді як CFR іноді навіть підвищується, коли тримає проміжну руку, щоб чинити тиск на підозрілого агента. У цих випадках схильність підозрілого агента до подвоєння може призвести до збитків.

На противагу цьому, Suspicion Agent краще виявляє та використовує моделі поведінки в конкуруючих моделях.

Зокрема, коли CFR вибрав карту (зазвичай вказує на слабку руку) або коли DMC пройшла (що вказує на те, що його рука не відповідає загальній карті), підозрілий агент блефує, щоб спонукати опонента скинути карти.

В результаті, Suspicion Agent показав найвищий рівень заповнення серед трьох методів планування.

Ця агресивна стратегія дозволяє підозрілому агенту накопичувати більше фішок навіть зі слабкими картами, тим самим максимізуючи виграш фішок.

Щоб оцінити наслідки спостереження заднього виду, дослідники провели абляційне дослідження, в якому спостереження заднього виду не було включено в сучасні ігри.

Як видно з таблиць 4 і 5, підозрілий агент зберігає свою перевагу в продуктивності над базовим методом без спостереження заднього виду.

Таблиця 4: Порівняльні результати ілюструють вплив включення спостережень опонента в історію руки в контексті руки Ледека

Таблиця 5: Результати порівняння показують, що коли підозрілий агент грає проти CFR в умовах Ледюк Холдему, вплив спостережень за опонентом додається до історії гри. Результатом є виграшна та програшна фішка після 100 раундів з використанням різних зерен, кількість виграшних та програшних фішок коливається від 1 до 14

05 Висновок

Suspicion Agent не має спеціальної підготовки і використовує лише попередні знання та здатність міркувати GPT-4, щоб перемогти алгоритми, навчені спеціально для цих ігор, такі як CFR і NFSP, у різних неповних інформаційних іграх, таких як Leduc Hold'em.

Це свідчить про те, що великі моделі мають потенціал для досягнення високої продуктивності в іграх з неповною інформацією.

Інтегруючи теоретичні ментальні моделі першого і другого порядку, підозрілий агент може передбачати поведінку своїх опонентів і відповідним чином коригувати свою стратегію. Це дає можливість підлаштовуватися під різні типи супротивників.

Suspicion Agent також демонструє здатність узагальнювати різні неповні інформаційні ігри, дозволяючи приймати рішення в таких іграх, як Coup і Texas Hold'em, ґрунтуючись виключно на правилах гри та правилах спостереження.

Але у Suspicion Agent є і певні обмеження. Наприклад, розмір вибірки для оцінки різних алгоритмів невеликий через обмеження обчислювальних витрат.

Окрім високої вартості висновків, яка коштує майже 1 долар за гру, а вихід підозрілого агента дуже чутливий до підказок, існує проблема галюцинацій.

У той же час, коли справа доходить до складних міркувань і розрахунків, підозрілий агент також працює незадовільно.

У майбутньому Suspicion Agent підвищить обчислювальну ефективність, надійність міркувань, а також підтримуватиме мультимодальні та багатокрокові міркування для досягнення кращої адаптації до складних ігрових середовищ.

У той же час, застосування Suspicion Agent в іграх з неповною інформацією також може бути перенесено на інтеграцію мультимодальної інформації в майбутньому, імітуючи більш реалістичні взаємодії та поширюючись на багатокористувацькі ігрові середовища.

Ресурси:

Джерело: Golden Finance

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити