東大華人博士讓GPT-4用“心智理論”玩德撲完勝傳統演算法碾壓人類新手

币小白_

2023-10-15 02:38:27

作者：新智元，來源：元宇宙之心

來自東京大學的Suspicion Agent利用GPT-4，在不完全資訊博弈中表現出了高階的心智理論能力（ToM）。

在完全資訊博弈中，每個博弈者都知道所有資訊要素。

但不完全資訊博弈不同，它類比了現實世界中在不確定或不完全資訊下進行決策的複雜性。

GPT-4作為目前最強大模型，具有非凡的知識檢索和推理能力。

但GPT-4能否利用已學習到的知識進行不完全資訊博弈？

為此，東京大學的研究人員引入了Suspicion Agent這一創新智慧體，通過利用GPT-4的能力來執行不完全資訊博弈。

論文位址：

在研究中，基於GPT-4的Suspicion Agent能夠通過適當的提示工程來實現不同的功能，並在一系列不完全資訊牌局中表現出了卓越的適應性。

最重要的是，博弈過程中，GPT-4表現出了強大的高階心智理論（ToM）能力。

GPT-4可以利用自己對人類認知的理解來預測對手的思維過程、易感性和行動。

這意味著GPT-4具備像人類一樣理解他人並有意影響他人的行為。

同樣的，基於GPT-4的智慧體在不完全資訊博弈中的表現也優於傳統演算法，這可能會激發LLM在不完全資訊博弈中的更多應用。

01 訓練方法

為了讓LLM能夠在沒有專門訓練的情況下玩各種不完全資訊博弈遊戲，研究人員將整個任務分解為下圖所示的幾個模組，如觀察解釋器、遊戲模式分析和規劃模組。

並且，為了緩解LLM在不完全信息遊戲中可能會被誤導這一問題，研究人員首先開發了結構化提示，説明LLM理解遊戲規則和當前狀態。

對於每種類型的不完全資訊博弈，都可以編寫如下結構化規則描述：

一般規則：遊戲簡介、回合數和投注規則;

動作描述：（動作 1 的描述）、（動作 2 的描述）......;

單局輸贏規則：單局輸贏或平局的條件;

輸贏回報規則：單局輸贏的獎勵或懲罰;

整局輸贏規則：對局數和整體輸贏條件。

在大多數不完全資訊博弈環境中，博弈狀態通常表示為低級數值，如按兩下向量，以方便機器學習。

但通過LLM，就可以將低層次的博弈狀態轉換為自然語言文本，從而説明模式的理解：

輸入說明：接收到的輸入類型，如字典、清單或其他格式，並描述遊戲狀態中的元素數量以及每個元素的名稱;

元素描述：（元素 11 的描述，（元素 2 的描述）,....

轉換提示：將低級遊戲狀態轉換為文本的更多指南。

![beyfMqHmFbURoO6EQO5AoTFYhrYUnnA6gLdnZWWU.png]（https://img-cdn.gateio.im/webp-social/moments-901ff9e656-f8e9c07fe4-dd1a6f-69ad2a.webp“7115940”）

在不完全資訊博弈中，這種表述方式能更容易理解與模型之間的交互。

研究人員引入了一種虛無規劃方法，該方法具有一個Reflexion模組，旨在自動檢查對局歷史，使LLMs能夠從歷史經驗中學習和改進規劃，以及一個單獨的規劃模組，專門用於做出相應的決策。

然而，虛無的規劃方法往往難以應對不完全資訊博弈中固有的不確定性，尤其是在面對善於利用他人策略的對手時。

受這種適應性的啟發，研究人員設計出了一種新的規劃方法，即利用LLM的ToM能力來了解對手的行為，從而相應地調整策略。

02 實驗定量評估

如表1所示，Suspicion Agent優於所有基線，並且基於GPT-4的Suspicion Agent在比較中獲得了最高的平均籌碼數。

這些發現有力地展示了在不完全資訊博弈領域採用大型語言模型的優勢，同時也證明瞭研究提出框架的有效性。

下圖表明瞭Suspicion Agent和基線模型的行動百分比。

可以觀察到：

Suspicion Agent vs CFR：CFR演算法是一種保守策略，它傾向於保守，經常在持有弱牌時棄牌。

而Suspicion Agent成功識別了這一模式，並策略性地選擇更頻繁地加注，向 CFR 施加棄牌壓力。

這使得即使Suspicion Agent的牌很弱或與CFR的牌相當的情況下，它積累了更多籌碼。

Suspicion Agent vs DMC：DMC基於搜索演算法，採用了更多樣化的策略，包括虛張聲勢。它經常在自己手牌最弱和最強時都會加注。

作為回應，Suspicion Agent根據自己的手牌和觀察到的DMC的行為，減少了加注頻率，並更多地選擇跟注或棄牌。

Suspicion Agent vs DON：DON演算法的立場更加激進，幾乎總是用強牌或中級牌加註，從不棄牌。

Suspicion Agent發現了這一點，並反過來盡量減少自己的加註，更多地根據公共牌和DON的行動選擇跟注或棄牌。

Suspicion Agent Vs NFSP：NFSP表現出跟注策略，選擇總是跟注並從不棄牌。

Suspicion Agent的應對方式是減少加注頻率，並根據公共牌和NFSP觀察到的行動選擇棄牌。

根據上述分析結果，可以看到Suspicion Agent具有很強的適應性，能夠利用其他各種演算法所採用策略的弱點。

這充分說明瞭大語言模型在不完美資訊博弈中的推理和適應能力。

03 定性評估

在定性評估中，研究人員在三個不完全資訊博弈遊戲（Coup、Texas Hold'emLimit 和 Leduc Hold'em）中對Suspicion Agent進行了評估。

Coup，中文翻譯是政變，這是一種紙牌遊戲，玩家扮演政治家，試圖推翻其他玩家的政權。遊戲的目標是在遊戲中存活並積累權力。

Texas Hold'em Limit，即德州撲克（有限注），是一種非常流行的撲克牌遊戲，有多個變體。「Limit」表示在每輪下注中有固定的上限，這意味著玩家只能下固定數額的賭注。

Leduc Hold'em是則是德州撲克的一個簡化版本，用於研究博弈論和人工智慧。

在每種情況下，Suspicion Agent手中有一張Jack，而對手要麼有一張Jack，要麼有一張Queen。

對手最初選擇跟注而不是加注，暗示他們手牌較弱。在普通計劃策略下，Suspicion Agent選擇跟注以查看公共牌。

當這揭示出對手手牌較弱時，對手迅速加註，使Suspicion Agent處於不穩定的局面，因為Jack是最弱的手牌。

在一階理論心智策略下，Suspicion Agent選擇棄牌，以最小化損失。這個決定是基於觀察到對手通常在手中有Queen或Jack時才跟注。

然而，這些策略未能充分利用對手手牌的推測弱點。這一缺點源於它們不考慮Suspicion Agent的舉動可能如何影響對手的反應。

相比之下，如圖9所示，簡單的提示能夠讓Suspicion Agent瞭解如何影響對手的行動。有意選擇加注會給對手帶來壓力，促使他們棄牌並最小化損失。

因此，即使手牌的強度相似，Suspicion Agent也能夠贏得許多比賽，從而比基線贏得更多的籌碼。

此外，如圖10所示，在對手跟注或回應Suspicion Agent的加註情況下（這表明對手手牌強大），Suspicion Agent就會迅速調整策略，選擇棄牌以防止進一步損失。

這顯示了Suspicion Agent的出色戰略靈活性。

04 消融研究與元件分析

為了探索不同階ToM感知規劃方法如何影響大型語言模型的行為，研究人員在Leduc Hold'em和plaagainst CFR上進行了實驗和比較。

圖5中展示了採用不同ToM水平規劃的Suspicion Agent的行動百分比，並在表3中展示了籌碼收益結果。

表3：Suspicion Agent在使用不同級別ToM與CFRonLeduc Hold'em環境對弈時的比較結果以及100局遊戲后的量化結果

可以觀察到：

基於Reflexion modulevanilla規劃在對局過程中傾向於更多地跟注和過牌（在對陣CFR和DMC時跟注和過牌比例最高），這無法施加壓力使對手棄牌，並導致許多不必要的損失。

但如表3所示，vanilla計劃的籌碼收益最低。

利用一階ToM，Suspicion Agent能夠根據自己的牌力和對對手牌力的估計做出決策。

因此，它加注的次數會多於普通計劃，但它棄牌的次數往往多於其他策略，目的是盡量減少不必要的損失。然而，這種謹慎的方法會被精明的對手模型所利用。

例如，DMC經常在拿著最弱的一手牌時加註，而CFR有時甚至會在拿著中級牌時加註，以對Suspicion Agent施加壓力。在這些情況下，Suspicion Agent的加倍傾向會導致損失。

相比之下，Suspicion Agent更擅長識別和利用對手模型的行為模式。

具體來說，當CFR選擇過牌（通常表示手牌較弱）或當DMC過牌（表明其手牌與公共牌不一致）時，Suspicion Agent會以虛張聲勢的方式加註，誘使對手棄牌。

因此，Suspicion Agent在三種規劃方法中表現出最高的加注率。

這種激進的策略讓Suspicion Agent即使手持弱牌也能積累更多籌碼，從而最大限度地提高籌碼收益。

為了評估後視觀察的影響，研究人員進行了一項後視觀察不納入當前遊戲的消融研究。

如表4和表5所示，在沒有後視觀察觀察的情況下，Suspicion Agent仍能保持其相對於基線方法的性能優勢。

表4：比較結果表明瞭在萊德克牌局環境中將對手觀察結果納入對局歷史的影響

表5：比較結果表明，當Suspicion Agent在Leduc Hold『em 環境中與CFR對弈時，在對局歷史中加入對手觀察結果的影響。結果是使用不同種子進行100局對局后的輸贏籌碼，輸贏籌碼數從1到14不等

05 結論

Suspicion Agent沒有進行任何專門的訓練，僅僅利用GPT-4的先驗知識和推理能力，就能在Leduc Hold'em等不同的不完全資訊遊戲中戰勝專門針對這些遊戲訓練的演算法，如CFR和NFSP。

這表明大模型具有在不完全信息遊戲中取得強大表現的潛力。

通過整合一階和二階理論心智模型，Suspicion Agent可以預測對手的行為，並相應調整自己的策略。這使得它可以對不同類型對手進行適應。

Suspicion Agent還展示了跨不同不完全資訊遊戲的泛化能力，僅僅根據遊戲規則和觀察規則，就可以在Coup和Texas Hold'em等遊戲中進行決策。

但Suspicion Agent也有著一定的局限性。例如，由於計算成本限制，對不同演算法的評估樣本量較小。

以及推理成本高昂，每局遊戲耗費接近1美元，並且Suspicion Agent的輸出對提示的敏感性較高，存在hallucination的問題。

同時，在進行複雜推理和計算時，Suspicion Agent的表現也不盡人意。

未來，Suspicion Agent將在計算效率、推理魯棒性等方面進行改進，並支援多模態和多步推理，來實現對複雜遊戲環境的更好適應。

同時，Suspicion Agent在不完全資訊博弈遊戲中的應用，也可以遷移到未來多模態資訊的整合，類比更真實的交互、擴展到多玩家遊戲環境中。

參考資料：

來源：金色財經

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

東大華人博士讓GPT-4用“心智理論”玩德撲 完勝傳統演算法 碾壓人類新手