Доктор Дунда Китайцы попросили GPT-4 использовать «теорию разума», чтобы играть в Depu и побеждать традиционные алгоритмы и сокрушать новичков

2023-10-15 02:38:27

Автор: Шинь Чжиюань, источник: Сердце Метавселенной

Агент Suspect из Токийского университета использует GPT-4 для демонстрации теорий разума высокого порядка (ToM) в неполных информационных играх.

В полноценной информационной игре каждый игрок знает все элементы информации.

Но неполная информационная игра отличается тем, что она имитирует сложность принятия решений в реальном мире при неопределенной или неполной информации.

GPT-4, как самая мощная модель в настоящее время, обладает исключительными возможностями поиска знаний и рассуждений.

Но может ли GPT-4 использовать то, чему он научился, чтобы играть в неполные информационные игры?

С этой целью исследователи из Токийского университета представили Suspect Agent, инновационный агент, который использует возможности GPT-4 для выполнения неполных информационных игр.

Адрес доклада:

В исследовании Suspect Agent на основе GPT-4 смог достичь различных функций с помощью правильной инженерии подсказок и продемонстрировал превосходную адаптивность в серии неполных информационных игр.

Самое главное, что GPT-4 продемонстрировал сильные возможности теории разума высшего порядка (ToM) во время игры.

GPT-4 может использовать свое понимание человеческого познания, чтобы предсказывать мыслительные процессы, восприимчивость и действия противника.

Это означает, что GPT-4 обладает способностью понимать других и намеренно влиять на их поведение, как на людей.

Аналогичным образом, агенты на основе GPT-4 также превосходят традиционные алгоритмы в играх с неполной информацией, что может стимулировать более широкое применение LLM в играх с неполной информацией.

#01 Метод обучения

Для того, чтобы LLM мог играть в различные неполные информационные игры без специальной подготовки, исследователи разбили всю задачу на несколько модулей, как показано на рисунке ниже, таких как интерпретатор наблюдения, модуль анализа игровых режимов и планирования.

И, чтобы смягчить проблему, связанную с тем, что LLM может быть введен в заблуждение в неполных информационных играх, исследователи сначала разработали структурированные подсказки, чтобы помочь LLM понять правила игры и текущее состояние.

Для каждого типа неполной информационной игры можно написать следующее структурированное описание правила:

Общие правила: введение в игру, количество раундов и правила ставок;

Описание действия: (Описание действия 1), (Описание действия 2)......;

Правила выигрыша-проигрыша: условия выигрыша-проигрыша или ничейного иннинга;

Правила возврата выигрыша-проигрыша: награды или штрафы за победу или поражение в одной игре;

Правила побед и поражений по всей игре: количество игр и общие условия выигрыша-поражения.

В большинстве игровых сред с неполной информацией состояния игры обычно представляются в виде низкоуровневых числовых значений, таких как векторы кликов, чтобы облегчить машинное обучение.

Но с помощью LLM низкоуровневые состояния игры могут быть преобразованы в текст на естественном языке, тем самым помогая понять закономерности:

Описание входных данных: тип полученных входных данных, таких как словарь, список или другой формат, и описывает количество элементов в игровом состоянии и имя каждого элемента;

Описание элемента: (Описание элемента 11, (описание элемента 2),....

Советы по переходу: Дополнительные рекомендации по преобразованию низкоуровневых состояний игры в текст.

! [beyfMqHmFbURoO6EQO5AoTFYhrYUnnA6gLdnZWWU.png] (https://img-cdn.gateio.im/webp-social/moments-901ff9e656-f8e9c07fe4-dd1a6f-69ad2a.webp «7115940»)

В неполных информационных играх такая формулировка облегчает понимание взаимодействия с моделью.

Исследователи представили нигилистический метод программирования с модулем Reflexion, предназначенным для автоматической проверки истории матчей, позволяющим магистрам права учиться и улучшать планирование на основе исторического опыта, и отдельным модулем планирования, предназначенным для принятия соответствующих решений.

Тем не менее, нигилистические методы планирования часто с трудом справляются с неопределенностью, присущей неполным информационным играм, особенно когда они сталкиваются с оппонентами, которые искусно используют чужие стратегии.

Вдохновленные этой адаптацией, исследователи разработали новый подход к планированию, который использует возможности ToM LLM для понимания поведения оппонентов и соответствующей корректировки стратегий.

#02 Количественная оценка экспериментов

Как показано в таблице 1, Suspect Agent превзошел все базовые показатели, а Suspect Agent на базе GPT-4 получил самое высокое среднее количество чипов в сравнении.

Полученные результаты убедительно демонстрируют преимущества использования больших языковых моделей в области неполных информационных игр, а также демонстрируют эффективность предложенного фреймворка.

На графике ниже показан процент действий, предпринятых агентом по расследованию подозрений, и базовая модель.

Можно наблюдать:

Подозрительный агент против CFR: Алгоритм CFR — это консервативная стратегия, которая, как правило, консервативна и часто сбрасывается при наличии слабых карт.

Подозрительный агент успешно выявил эту закономерность и стратегически выбрал более частые рейзы, оказав давление на CFR.

Это позволяет агенту Suspect накапливать больше фишек, даже если его карты слабы или сопоставимы с картами CFR.

Suspect Agent vs DMC: DMC основан на алгоритмах поиска и использует более разнообразные стратегии, включая блеф. Он часто поднимает, когда его рука самая слабая и сильная.

В ответ на это агент Suspect уменьшил частоту рейзов, в зависимости от своих рук и наблюдаемого поведения DMC, и решил больше коллировать или сбрасывать.

Подозрительный агент против ДОНа: Алгоритм ДОН занимает более агрессивную позицию, почти всегда повышая с сильными или промежуточными картами и никогда не сбрасывая.

Подозрительный агент обнаружил это и, в свою очередь, минимизировал свои рейзы, решив коллировать или сбросить больше в зависимости от действий публики и ДОНА.

Подозрительный агент против NFSP: NFSP демонстрирует стратегию колла, выбирая всегда коллировать и никогда не сбрасывать.

Агент по подозрениям реагирует на это, уменьшая частоту заполнений и выбирая фолд в зависимости от действий, наблюдаемых сообществом и NFSP.

Исходя из приведенных выше результатов анализа, можно увидеть, что Suspect Agent обладает высокой адаптивностью и может использовать слабые стороны стратегий, принятых различными другими алгоритмами.

Это в полной мере иллюстрирует рассуждение и адаптивность больших языковых моделей в несовершенных информационных играх.

#03 Качественная оценка

В качестве качественной оценки исследователи оценили Suspect Agent в трех незавершенных информационных играх (Coup, Texas Hold'emLimit и Leduc Hold'em).

Переворот, в переводе с китайского — переворот, карточная игра, в которой игроки играют за политиков, пытающихся свергнуть режимы других игроков. Цель игры – выжить в игре и накопить силу.

Техасский Холдем Лимит, или Техасский Холдем Лимит – очень популярная карточная игра с несколькими вариантами. «Лимит» означает, что существует фиксированный лимит на каждую ставку, что означает, что игроки могут делать только фиксированную сумму ставок.

Ледюк Холдем – это упрощенная версия Техасского Холдема для изучения теории игр и искусственного интеллекта.

В каждом случае у агента по подозрениям в руках валет, а у противника — валет или дама.

Оппоненты изначально предпочитают уравнивать, а не повышать, подразумевая, что у них более слабая рука. В соответствии с обычной стратегией планирования, агент по подозрениям выбирает звонок для просмотра открытых карточек.

Когда выясняется, что рука оппонента слаба, оппонент быстро повышает ставку, оставляя Агента Подозрения в нестабильной ситуации, так как Валет является самой слабой рукой.

В соответствии с теоретической ментальной стратегией первого порядка, агент подозрения решает сбросить карты, чтобы минимизировать потери. Это решение основано на наблюдении, что оппоненты обычно коллируют, когда у них на руках есть дама или валет.

Однако эти стратегии не могут в полной мере использовать спекулятивные слабости руки оппонента. Этот недостаток проистекает из того факта, что они не учитывают, как действия агента подозрения могут повлиять на реакцию оппонента.

Напротив, как показано на рисунке 9, простые подсказки позволяют агенту Suspect понять, как повлиять на действия злоумышленника. Намеренный выбор рейза оказывает давление на оппонентов, заставляя их сбрасывать карты и минимизировать потери.

Поэтому, даже если сила рук одинакова, Агент Подозрений способен выиграть много игр и, таким образом, выиграть больше фишек, чем базовый уровень.

Кроме того, как показано на рисунке 10, в случае колла оппонента или ответа на рейз от агента Suspect (что указывает на то, что рука оппонента сильна), агент Suspect быстро корректирует свою стратегию и решает сбросить карты, чтобы предотвратить дальнейшие потери.

Это свидетельствует о превосходной стратегической гибкости Suspect Agent.

04 Исследования абляции и компонентный анализ

Чтобы изучить, как различные методы планирования восприятия ToM влияют на поведение больших языковых моделей, исследователи провели эксперименты и сравнения на Leduc Hold'em и plaagainst CFR.

На рисунке 5 показан процент действий подозрительных агентов с различным планированием уровня ToM, а результаты выхода фишек показаны в таблице 3.

Таблица 3: Результаты сравнения Suspect Agent с средами CFRonLeduc Hold'em с использованием различных уровней ToM и количественные результаты после 100 игр

Можно наблюдать:

Исходя из ванильного плана модуля Reflexion, наблюдается тенденция больше коллировать и отдавать пасы во время игры (самый высокий процент колла и паса против CFR и DMC), что не может оказать давление на оппонента и сбросить карты и приводит к множеству ненужных потерь.

Однако, как показано в таблице 3, программа Vanilla имеет самый низкий прирост микросхемы.

Используя ToM первого порядка, Агент Подозрений может принимать решения, основываясь на собственной силе и оценке силы своего противника.

В результате она будет рейзить больше раз, чем обычный план, но имеет тенденцию сбрасывать больше раз, чем другие стратегии, чтобы минимизировать ненужные потери. Тем не менее, этот осторожный подход может быть использован опытными конкурирующими моделями.

Например, DMC часто повышает, когда держит самую слабую руку, в то время как CFR иногда даже повышает, когда держит промежуточную руку, чтобы оказать давление на агента по подозрениям. В этих случаях склонность подозрительного агента к удвоению ставок может привести к убыткам.

В отличие от него, агент подозрений лучше выявляет и использует модели поведения в конкурирующих моделях.

В частности, когда CFR выбрал карту (обычно это указывает на слабую руку) или когда DMC прошел (что указывает на то, что его рука не соответствует общей карте), агент по подозрениям блефует, чтобы побудить оппонента сбросить карты.

В результате, Suspect Agent показал самый высокий уровень заполнения среди трех методов планирования.

Эта агрессивная стратегия позволяет Агенту Подозрений накапливать больше фишек даже со слабыми картами, тем самым максимизируя выигрыш фишек.

Чтобы оценить влияние наблюдения за задним видом, исследователи провели исследование абляции, в котором наблюдение за задним видом не было включено в текущие игры.

Как показано в таблицах 4 и 5, Suspect Agent сохраняет свое преимущество в производительности по сравнению с базовым методом без наблюдения за задним обзором.

Таблица 4: Сравнительные результаты иллюстрируют влияние включения наблюдений оппонента в историю раздачи в контексте руки Ледека

Таблица 5: Результаты сравнения показывают, что когда Агент Подозрений играет против CFR в среде Ледюк Холдем, влияние наблюдений за противником добавляется к истории игры. В результате после 100 раундов с использованием различных семян можно получить выигрышную и проигрышную фишку, при этом количество выигрышных и проигранных фишек варьируется от 1 до 14

05 Заключение

Suspect Agent не имеет специальной подготовки и использует только предыдущие знания GPT-4 и способность к рассуждению, чтобы победить алгоритмы, обученные специально для этих игр, таких как CFR и NFSP, в различных играх с неполной информацией, таких как Leduc Hold'em.

Это показывает, что большие модели имеют потенциал для достижения высокой производительности в играх с неполной информацией.

Интегрируя теоретические ментальные модели первого и второго порядка, агент подозрения может предсказывать поведение своих оппонентов и соответствующим образом корректировать свою стратегию. Это дает возможность подстраиваться под разные типы противников.

Suspect Agent также демонстрирует способность обобщать различные игры с неполной информацией, позволяя принимать решения в таких играх, как Coup и Texas Hold'em, основываясь исключительно на правилах игры и правилах наблюдения.

Но у Suspect Agent есть и определенные ограничения. Например, размер выборки при оценке различных алгоритмов невелик из-за ограничений вычислительной стоимости.

Помимо высокой стоимости инференса, которая стоит почти 1 доллар за игру, и выхода агента Suspect очень чувствительной к подсказкам, существует проблема галлюцинаций.

В то же время, когда дело доходит до сложных рассуждений и расчетов, Suspect Agent также работает неудовлетворительно.

В будущем Suspect Agent повысит вычислительную эффективность, надежность рассуждений и будет поддерживать мультимодальные и многоступенчатые рассуждения для лучшей адаптации к сложным игровым средам.

В то же время, применение Suspect Agent в играх с неполной информацией также может быть перенесено на интеграцию мультимодальной информации в будущем, моделируя более реалистичные взаимодействия и распространяясь на многопользовательские игровые среды.

Ресурсы:

Источник: Голден Финанс

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков

Награда
1
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
1/3
1CandyDrop Airdrop Event 6.0
17k Популярность
2White House Crypto Report
34k Популярность
3Join Alpha RION Airdrop to Earn $40
9k Популярность
4Fed Holds Rates Decision
8k Популярность
5July Spark Program TOP 10 Creators Announced
2k Популярность

Закрепить

Карта сайта