GPT-4 utilise la « théorie de l’esprit » pour jouer à battre les humains

2023-10-15 02:38:27

Auteur: Shin Ji Yuan

Suspicion Agent de l’Université de Tokyo utilise GPT-4 pour démontrer des théories de l’esprit (ToM) d’ordre élevé dans des jeux d’information incomplets.

Dans un jeu d’information complet, chaque joueur connaît tous les éléments d’information.

Mais le jeu de l’information incomplète est différent en ce sens qu’il simule la complexité de la prise de décisions dans le monde réel sous des informations incertaines ou incomplètes.

GPT-4, en tant que modèle le plus puissant à l’heure actuelle, possède des capacités extraordinaires de récupération de connaissances et de raisonnement.

Mais GPT-4 peut-il utiliser ce qu’il a appris pour jouer à des jeux d’information incomplets ?

À cette fin, des chercheurs de l’Université de Tokyo ont introduit Suspicion Agent, un agent innovant qui utilise les capacités de GPT-4 pour effectuer des jeux d’information incomplets.

Adresse papier :

Dans l’étude, l’agent de suspicion basé sur GPT-4 a été capable d’atteindre différentes fonctions grâce à une ingénierie d’indices appropriée et a démontré une adaptabilité supérieure dans une série de jeux d’information incomplets.

Plus important encore, GPT-4 a démontré de solides capacités de théorie de l’esprit (ToM) d’ordre supérieur pendant le jeu.

GPT-4 peut utiliser sa compréhension de la cognition humaine pour prédire les processus de pensée, la susceptibilité et les actions d’un adversaire.

Cela signifie que GPT-4 a la capacité de comprendre les autres et d’influencer intentionnellement leur comportement comme les humains.

De même, les agents basés sur GPT-4 surpassent également les algorithmes traditionnels dans les jeux d’information incomplets, ce qui peut stimuler davantage d’applications de LLM dans les jeux d’information incomplets.

01 Méthode d’entraînement

Afin de permettre à LLM de jouer à divers jeux d’information incomplets sans formation spécialisée, les chercheurs ont décomposé l’ensemble de la tâche en plusieurs modules, comme le montre la figure ci-dessous, tels que l’interprète d’observation, l’analyse du mode de jeu et le module de planification.

Et, pour atténuer le problème que la LLM peut être induite en erreur dans des jeux d’information incomplets, les chercheurs ont d’abord développé des indices structurés pour aider la LLM à comprendre les règles du jeu et l’état actuel.

Pour chaque type de jeu d’information incomplet, la description structurée suivante peut être rédigée :

Règles générales : introduction au jeu, nombre de tours et règles de mise ;

Description de l’action : (Description de l’action 1), (Description de l’action 2)......;

Règles gagnant-perdant : conditions de victoire-défaite ou de match nul ;

Règles de retour gagnant-perdant : récompenses ou pénalités pour avoir gagné ou perdu une seule partie ;

Règles de gain et de perte pour l’ensemble du jeu : nombre de jeux et conditions globales de victoire-défaite.

Dans la plupart des environnements de jeux d’information incomplets, les états de jeu sont généralement représentés sous forme de valeurs numériques de bas niveau, telles que des vecteurs de clic, afin de faciliter l’apprentissage automatique.

Mais avec LLM, les états de jeu de bas niveau peuvent être convertis en texte en langage naturel, ce qui aide à comprendre les modèles :

Description de l’entrée : le type d’entrée reçue, tel qu’un dictionnaire, une liste ou un autre format, et décrit le nombre d’éléments dans l’état du jeu et le nom de chaque élément ;

Description de l’élément : (Description de l’élément 11, (description de l’élément 2),....

Conseils de transition : Plus de conseils sur la conversion d’états de jeu de bas niveau en texte.

! [beyfMqHmFbURoO6EQO5AoTFYhrYUnnA6gLdnZWWU.png] (https://img.jinse.cn/7115940_watermarknone.png « 7115940 »)

Dans les jeux d’information incomplets, cette formulation facilite la compréhension de l’interaction avec le modèle.

Les chercheurs ont introduit une méthode de programmation nihiliste avec un module Reflexion conçu pour vérifier automatiquement l’historique des matchs, permettant aux LLM d’apprendre et d’améliorer la planification à partir de l’expérience historique, et un module de planification séparé dédié à la prise de décisions correspondantes.

Cependant, les méthodes de planification nihilistes ont souvent du mal à faire face à l’incertitude inhérente aux jeux d’information incomplets, en particulier lorsqu’elles sont confrontées à des adversaires qui sont habiles à utiliser les stratégies des autres.

Inspirés par cette adaptation, les chercheurs ont conçu une nouvelle approche de planification qui exploite les capacités ToM du LLM pour comprendre le comportement des adversaires et ajuster les stratégies en conséquence.

02 Évaluation quantitative des expériences

Comme le montre le tableau 1, Suspicion Agent a surpassé toutes les lignes de base, et Suspicion Agent basé sur GPT-4 a obtenu le nombre moyen de puces le plus élevé dans la comparaison.

Ces résultats démontrent fortement les avantages de l’utilisation de grands modèles de langage dans le domaine des jeux d’information incomplets, et démontrent également l’efficacité du cadre proposé.

Le graphique ci-dessous montre le pourcentage d’actions effectuées par l’agent suspect et le modèle de référence.

On peut observer :

Agent de suspicion vs CFR : L’algorithme CFR est une stratégie conservatrice qui a tendance à être conservatrice et qui se couche souvent lorsqu’elle détient des cartes faibles.

L’agent de soupçon a réussi à identifier cette tendance et a stratégiquement opté pour des augmentations plus fréquentes, ce qui a exercé une pression sur les CFR.

Cela permet à l’agent de suspicion d’accumuler plus de jetons même si ses cartes sont faibles ou comparables à celles du CFR.

Agent de suspicion vs DMC : DMC est basé sur des algorithmes de recherche et utilise des stratégies plus diverses, y compris le bluff. Il relance souvent lorsque sa main est la plus faible et la plus forte.

En réponse, l’agent suspect a réduit la fréquence des relances, en fonction de ses propres mains et du comportement observé du DMC, et a choisi de suivre ou de se coucher davantage.

Agent de suspicion vs DON : L’algorithme DON adopte une position plus agressive, relançant presque toujours avec des cartes fortes ou intermédiaires, et ne se couchant jamais.

L’agent de suspicion l’a découvert et a à son tour minimisé ses propres augmentations, choisissant de suivre ou de se coucher davantage en fonction des actions du public et de DON.

Agent suspect vs NFSP : NFSP présente une stratégie d’appel, choisissant de toujours suivre et de ne jamais se coucher.

L’agent de suspicion réagit en réduisant la fréquence des remplissages et en choisissant de se coucher en fonction des actions observées par la communauté et le NFSP.

Sur la base des résultats d’analyse ci-dessus, on peut voir que Suspicion Agent est très adaptable et peut exploiter les faiblesses des stratégies adoptées par divers autres algorithmes.

Cela illustre pleinement le raisonnement et l’adaptabilité des grands modèles de langage dans les jeux d’information imparfaits.

03 Évaluation qualitative

Dans le cadre d’une évaluation qualitative, les chercheurs ont évalué Suspicion Agent dans trois jeux d’information incomplets (Coup, Texas Hold’emLimit et Leduc Hold’em).

Coup d’État, traduction chinoise est un coup d’État, un jeu de cartes dans lequel les joueurs incarnent des politiciens essayant de renverser les régimes des autres joueurs. Le but du jeu est de survivre dans le jeu et d’accumuler de la puissance.

Le Texas Hold’em Limit, ou Texas Hold’em Limit, est un jeu de cartes très populaire avec plusieurs variantes. « Limite » signifie qu’il y a un plafond fixe sur chaque mise, ce qui signifie que les joueurs ne peuvent placer qu’un montant fixe de mises.

Le Leduc Hold’em est une version simplifiée du Texas Hold’em pour l’étude de la théorie des jeux et de l’intelligence artificielle.

Dans chaque cas, l’agent suspect a un valet dans ses mains, tandis que l’adversaire a soit un valet, soit une reine.

Les adversaires choisissent d’abord de suivre plutôt que de relancer, ce qui implique qu’ils ont une main plus faible. Dans le cadre de la stratégie de planification normale, l’agent de suspicion sélectionne l’appel pour afficher les cartes publiques.

Lorsque cela révèle que la main de l’adversaire est faible, l’adversaire augmente rapidement la mise, laissant l’agent suspect dans une situation instable, car le valet est la main la plus faible.

Selon la stratégie mentale théorique du premier ordre, l’agent de suspicion choisit de se coucher afin de minimiser les pertes. Cette décision est basée sur l’observation que les adversaires suivent généralement lorsqu’ils ont la Dame ou le Valet dans leurs mains.

Cependant, ces stratégies ne parviennent pas à tirer pleinement parti des faiblesses spéculatives de la main de l’adversaire. Cet inconvénient provient du fait qu’ils ne tiennent pas compte de la façon dont les actions de l’agent suspect pourraient affecter la réaction de l’adversaire.

En revanche, comme le montre la figure 9, des indices simples permettent à l’agent de soupçon de comprendre comment influencer les actions de l’adversaire. Choisir intentionnellement de relancer met la pression sur les adversaires pour qu’ils se couchent et minimisent les pertes.

Par conséquent, même si la force des mains est similaire, l’agent de suspicion est capable de gagner de nombreuses parties et donc de gagner plus de jetons que la ligne de base.

De plus, comme le montre la figure 10, dans le cas d’un appel ou d’une réponse d’un adversaire à une relance de l’agent suspect (ce qui indique que la main de l’adversaire est forte), l’agent suspect ajuste rapidement sa stratégie et choisit de se coucher pour éviter d’autres pertes.

Cela montre l’excellente flexibilité stratégique de Suspicion Agent.

04 Etudes d’ablation et analyse des composants

Pour explorer comment les différentes méthodes de planification de la perception ToM affectent le comportement des grands modèles de langage, les chercheurs ont mené des expériences et des comparaisons sur le Leduc Hold’em et le plaagainst CFR.

La figure 5 montre le pourcentage d’actions d’agents suspects avec une planification de niveau de ToM différent, et les résultats du rendement des puces sont présentés dans le tableau 3.

Tableau 3 : Résultats de comparaison de Suspicion Agent avec des environnements de CFRonLeduc Hold’em en utilisant différents niveaux de ToM et résultats de quantification après 100 parties

On peut observer :

Sur la base du plan vanille du module Reflexion, il y a une tendance à suivre et à passer plus pendant la partie (le pourcentage le plus élevé de call and pass contre CFR et DMC), ce qui ne peut pas exercer de pression sur l’adversaire pour qu’il se couche et conduit à de nombreuses pertes inutiles.

Cependant, comme le montre le tableau 3, le programme Vanilla a les gains de puces les plus faibles.

À l’aide d’un ToM de premier ordre, l’agent suspect est capable de prendre des décisions basées sur son propre pouvoir et sur les estimations de la puissance de son adversaire.

En conséquence, il relancera plus de fois que le plan normal, mais il a tendance à se coucher plus de fois que les autres stratégies afin de minimiser les pertes inutiles. Cependant, cette approche prudente peut être exploitée par des modèles rivaux avisés.

Par exemple, DMC relance souvent lorsqu’il détient la main la plus faible, tandis que CFR relance parfois même lorsqu’il tient une main intermédiaire pour mettre la pression sur l’agent suspect. Dans ces cas, la tendance de l’agent suspect à doubler la mise peut entraîner des pertes.

En revanche, Suspicion Agent est meilleur pour identifier et exploiter les modèles de comportement dans les modèles rivaux.

Plus précisément, lorsque le CFR a choisi une carte (indiquant généralement une main faible) ou lorsque le DMC est passé (indiquant que sa main n’est pas cohérente avec la carte commune), l’agent de suspicion bluffera pour inciter l’adversaire à se coucher.

En conséquence, Suspicion Agent a affiché le taux de remplissage le plus élevé parmi les trois méthodes de planification.

Cette stratégie agressive permet à l’agent suspect d’accumuler plus de jetons même avec des cartes faibles, maximisant ainsi les gains de jetons.

Pour évaluer les effets de l’observation par l’arrière, les chercheurs ont mené une étude d’ablation dans laquelle l’observation par l’arrière n’a pas été intégrée dans les jeux actuels.

Comme le montrent les tableaux 4 et 5, l’agent suspect conserve son avantage en termes de performance par rapport à la méthode de référence sans observation rétrospective.

Tableau 4 : Les résultats comparatifs illustrent l’impact de l’intégration des observations de l’adversaire dans l’histoire de la main dans le contexte de la main de Ledek

Tableau 5 : Les résultats de la comparaison montrent que lorsque l’agent de suspicion joue contre CFR dans un environnement de Leduc Hold’em, l’impact des observations de l’adversaire est ajouté à l’historique de jeu. Le résultat est un jeton gagnant et perdant après 100 tours en utilisant différentes graines, le nombre de jetons gagnants et perdants allant de 1 à 14

05 Conclusion

Suspicion Agent n’a pas de formation spécialisée, et n’utilise que les connaissances préalables et la capacité de raisonnement de GPT-4 pour vaincre des algorithmes entraînés spécifiquement pour ces jeux, tels que CFR et NFSP, dans différents jeux d’information incomplets tels que le Leduc Hold’em.

Cela montre que les grands modèles ont le potentiel d’atteindre de bonnes performances dans les jeux avec des informations incomplètes.

En intégrant des modèles mentaux théoriques de premier et de second ordre, l’agent suspect peut prédire le comportement de ses adversaires et ajuster sa stratégie en conséquence. Cela permet de s’adapter à différents types d’adversaires.

Suspicion Agent démontre également sa capacité à généraliser à travers différents jeux d’information incomplets, permettant de prendre des décisions dans des jeux tels que le Coup et le Texas Hold’em en se basant uniquement sur les règles du jeu et les règles d’observation.

Mais Suspicion Agent a aussi certaines limites. Par exemple, la taille de l’échantillon de l’évaluation de différents algorithmes est petite en raison des contraintes de coût de calcul.

En plus du coût élevé de l’inférence, qui coûte près de 1 $ par partie, et de la sortie de l’agent de suspicion qui est très sensible aux invites, il y a un problème d’hallucination.

Dans le même temps, lorsqu’il s’agit de raisonnements et de calculs complexes, Suspicion Agent n’a pas non plus de résultats satisfaisants.

À l’avenir, Suspicion Agent améliorera l’efficacité du calcul, la robustesse du raisonnement et prendra en charge le raisonnement multimodal et multi-étapes pour obtenir une meilleure adaptation aux environnements de jeu complexes.

Dans le même temps, l’application de l’agent de suspicion dans les jeux d’information incomplets peut également être migrée vers l’intégration d’informations multimodales à l’avenir, simulant des interactions plus réalistes et s’étendant aux environnements de jeu multijoueurs.

Ressources:

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1CandyDrop Airdrop Event 6.0
17k Popularité
2White House Crypto Report
35k Popularité
3Join Alpha RION Airdrop to Earn $40
9k Popularité
4Fed Holds Rates Decision
8k Popularité
5July Spark Program TOP 10 Creators Announced
2k Popularité

Épingler