GPT-4, insanları nasıl yeneceğini oynamak için "zihin teorisini" kullanır

2023-10-15 02:38:27

Yazar: Shin Ji Yuan

Tokyo Üniversitesi'nden Şüphe Ajanı, eksik bilgi oyunlarında üst düzey zihin teorilerini (ToM) göstermek için GPT-4'ü kullanıyor.

Tam bir bilgi oyununda, her oyuncu bilginin tüm unsurlarını bilir.

Ancak eksik bilgi oyunu, gerçek dünyada belirsiz veya eksik bilgi altında karar vermenin karmaşıklığını simüle etmesi bakımından farklıdır.

Şu anda en güçlü model olan GPT-4, olağanüstü bilgi alma ve akıl yürütme yeteneklerine sahiptir.

Ancak GPT-4, öğrendiklerini eksik bilgi oyunları oynamak için kullanabilir mi?

Bu amaçla, Tokyo Üniversitesi'ndeki araştırmacılar, eksik bilgi oyunları gerçekleştirmek için GPT-4'ün yeteneklerini kullanan yenilikçi bir ajan olan Suspicion Agent'ı tanıttı.

Bildiri Adresi:

Çalışmada, GPT-4 tabanlı Şüphe Ajanı, uygun ipucu mühendisliği yoluyla farklı işlevler elde edebildi ve bir dizi eksik bilgi oyununda üstün uyarlanabilirlik gösterdi.

En önemlisi, GPT-4 oyun sırasında güçlü üst düzey zihin teorisi (ToM) yetenekleri sergiledi.

GPT-4, bir düşmanın düşünce süreçlerini, duyarlılığını ve eylemlerini tahmin etmek için insan bilişi anlayışını kullanabilir.

Bu, GPT-4'ün başkalarını anlama ve davranışlarını insanlar gibi kasıtlı olarak etkileme yeteneğine sahip olduğu anlamına gelir.

Benzer şekilde, GPT-4 tabanlı ajanlar da eksik bilgi oyunlarında geleneksel algoritmalardan daha iyi performans gösterir ve bu da eksik bilgi oyunlarında daha fazla LLM uygulamasını teşvik edebilir.

01 Eğitim yöntemi

LLM'nin özel eğitim almadan çeşitli eksik bilgi oyunu oyunlarını oynamasını sağlamak için, araştırmacılar tüm görevi aşağıdaki şekilde gösterildiği gibi gözlem tercümanı, oyun modu analizi ve planlama modülü gibi birkaç modüle ayırdılar.

Ve LLM'nin eksik bilgi oyunlarında yanıltılabileceği sorununu azaltmak için, araştırmacılar ilk önce LLM'nin oyunun kurallarını ve mevcut durumu anlamasına yardımcı olacak yapılandırılmış ipuçları geliştirdiler.

Her bir eksik bilgi oyunu türü için aşağıdaki yapılandırılmış kural açıklaması yazılabilir:

Genel kurallar: oyuna giriş, tur sayısı ve bahis kuralları;

Eylem açıklaması: (Eylem 1'in Açıklaması), (Eylem 2'nin Açıklaması)......;

Kazanç-mağlubiyet kuralları: galibiyet-mağlubiyet veya beraberlik koşulları;

Galibiyet-mağlubiyet iade kuralları: tek bir oyunu kazanmak veya kaybetmek için ödüller veya cezalar;

Tüm oyun kazanma ve kaybetme kuralları: oyun sayısı ve genel kazanç-kayıp koşulları.

Eksik bilgi oyunu ortamlarının çoğunda, oyun durumları genellikle makine öğrenimini kolaylaştırmak için tıklama vektörleri gibi düşük seviyeli sayısal değerler olarak temsil edilir.

Ancak LLM ile düşük seviyeli oyun durumları doğal dil metnine dönüştürülebilir ve böylece kalıpların anlaşılmasına yardımcı olur:

Giriş açıklaması: Sözlük, liste veya başka bir biçim gibi alınan girdi türü ve oyun durumundaki öğelerin sayısını ve her öğenin adını açıklar;

Eleman açıklaması: (Eleman 11'in açıklaması, (eleman 2'nin açıklaması),....

Geçiş İpuçları: Düşük seviyeli oyun durumlarını metne dönüştürme hakkında daha fazla rehberlik.

! [beyfMqHmFbURoO6EQO5AoTFYhrYUnnA6gLdnZWWU.png] ("7115940" https://img-cdn.gateio.im/webp-social/moments-40baef27dd-0c01564118-dd1a6f-69ad2a.webp)

Eksik bilgi oyunlarında, bu formülasyon modelle etkileşimi anlamayı kolaylaştırır.

Araştırmacılar, eşleşmelerin geçmişini otomatik olarak kontrol etmek için tasarlanmış bir Reflexion modülü ile nihilist bir programlama yöntemi tanıttılar, LLM'lerin tarihsel deneyimlerden planlamayı öğrenmelerini ve geliştirmelerini sağladılar ve ilgili kararları vermeye adanmış ayrı bir planlama modülü geliştirdiler.

Bununla birlikte, nihilist planlama yöntemleri, özellikle başkalarının stratejilerini kullanmakta usta olan rakiplerle karşı karşıya kaldıklarında, eksik bilgi oyunlarının doğasında var olan belirsizlikle başa çıkmakta zorlanır.

Bu adaptasyondan ilham alan araştırmacılar, rakiplerin davranışlarını anlamak ve stratejileri buna göre ayarlamak için LLM'nin ToM yeteneklerini kullanan yeni bir planlama yaklaşımı geliştirdiler.

02 Deneylerin nicel değerlendirmesi

Tablo 1'de gösterildiği gibi, Şüphe Ajanı tüm taban çizgilerinden daha iyi performans gösterdi ve GPT-4 tabanlı Şüphe Ajanı, karşılaştırmada en yüksek ortalama fiş sayısını elde etti.

Bu bulgular, eksik bilgi oyunları alanında büyük dil modellerinin kullanılmasının avantajlarını güçlü bir şekilde ortaya koymakta ve ayrıca önerilen çerçevenin etkinliğini göstermektedir.

Aşağıdaki grafik, Şüphe Aracısı ve temel model tarafından gerçekleştirilen eylemlerin yüzdesini göstermektedir.

Gözlemlenebilir:

Şüphe Ajanı ve CFR: CFR algoritması, muhafazakar olma eğiliminde olan ve genellikle zayıf kartları tutarken katlanan muhafazakar bir stratejidir.

Şüphe Ajanı bu modeli başarılı bir şekilde tanımladı ve stratejik olarak daha sık yükseltmeleri tercih ederek CFR'ler üzerinde kat baskısı oluşturdu.

Bu, Şüphe Ajanının, kartları zayıf veya CFR'ninkilerle karşılaştırılabilir olsa bile daha fazla fiş biriktirmesini sağlar.

Şüphe Ajanı vs DMC: DMC, arama algoritmalarına dayalıdır ve blöf de dahil olmak üzere daha çeşitli stratejiler kullanır. Genellikle elinin en zayıf ve en güçlü olduğu anda yükselir.

Buna karşılık, Şüphe Ajanı, kendi ellerine ve gözlemlenen DMC davranışına bağlı olarak yükseltme sıklığını azalttı ve daha fazla aramayı veya katlamayı seçti.

Şüphe Ajanı vs DON: DON algoritması daha agresif bir duruş sergiler, neredeyse her zaman güçlü veya orta kartlarla yükseltir ve asla katlanmaz.

Şüphe Ajanı bunu keşfetti ve karşılığında kendi zamlarını en aza indirdi, halkın ve DON'un eylemlerine göre daha fazlasını aramayı veya katlamayı seçti.

Şüphe Ajanı vs NFSP: NFSP, her zaman aramayı ve asla katlanmamayı seçen bir arama stratejisi sergiler.

Şüphe Ajanı, doldurma sıklığını azaltarak ve topluluk ve NFSP tarafından gözlemlenen eylemlere göre katlamayı seçerek yanıt verir.

Yukarıdaki analiz sonuçlarına dayanarak, Suspicion Agent'ın son derece uyarlanabilir olduğu ve diğer çeşitli algoritmalar tarafından benimsenen stratejilerin zayıflıklarından yararlanabildiği görülebilir.

Bu, kusurlu bilgi oyunlarında büyük dil modellerinin akıl yürütmesini ve uyarlanabilirliğini tam olarak göstermektedir.

03 Niteliksel değerlendirme

Nitel değerlendirmede, araştırmacılar Şüphe Ajanı'nı üç eksik bilgi oyunu oyununda (Coup, Texas Hold'emLimit ve Leduc Hold'em) değerlendirdiler.

Darbe, Çince çeviri bir darbedir, oyuncuların diğer oyuncuların rejimlerini devirmeye çalışan politikacılar olarak oynadığı bir kart oyunudur. Oyunun amacı oyunda hayatta kalmak ve güç biriktirmektir.

Texas Hold'em Limit veya Texas Hold'em Limit, çeşitli varyantları olan çok popüler bir kart oyunudur. "Limit", her bahiste sabit bir üst sınır olduğu anlamına gelir, bu da oyuncuların yalnızca sabit miktarda bahis oynayabileceği anlamına gelir.

Leduc Hold'em, oyun teorisi ve yapay zeka çalışmaları için Texas Hold'em'in basitleştirilmiş bir versiyonudur.

Her durumda, Şüphe Ajanının elinde bir Vale bulunurken, rakibin ya bir Vale ya da Kraliçesi vardır.

Rakipler başlangıçta yükseltmek yerine aramayı seçerler, bu da ellerinin daha zayıf olduğunu ima eder. Normal planlama stratejisinde, Şüphe Aracısı ortak kartları görüntülemek için çağrıyı seçer.

Bu, rakibin elinin zayıf olduğunu ortaya çıkardığında, rakip bahsi hızla yükseltir ve Jack en zayıf el olduğu için Şüphe Ajanını dengesiz bir durumda bırakır.

Birinci dereceden teorik zihinsel strateji altında, Şüphe Ajanı kayıpları en aza indirmek için katlanmayı seçer. Bu karar, rakiplerin genellikle ellerinde Queen veya Jack olduğunda aradıklarını gözlemlemeye dayanmaktadır.

Ancak bu stratejiler, rakibin elinin spekülatif zayıflıklarından tam olarak yararlanamamaktadır. Bu dezavantaj, Şüphe Ajanının eylemlerinin rakibin tepkisini nasıl etkileyebileceğini dikkate almamalarından kaynaklanmaktadır.

Buna karşılık, Şekil 9'da gösterildiği gibi, basit ipuçları, Şüphe Ajanının düşmanın eylemlerini nasıl etkileyeceğini anlamasını sağlar. Kasıtlı olarak yükseltmeyi seçmek, rakiplere pas geçmeleri ve kayıpları en aza indirmeleri için baskı uygular.

Bu nedenle, ellerin gücü benzer olsa bile, Şüphe Ajanı birçok oyun kazanabilir ve böylece taban çizgisinden daha fazla fiş kazanabilir.

Ek olarak, Şekil 10'da gösterildiği gibi, bir rakibin Şüphe Ajanı'ndan gelen bir yükseltmeye (rakibin elinin güçlü olduğunu gösteren) bir çağrı veya yanıt vermesi durumunda, Şüphe Ajanı stratejisini hızla ayarlar ve daha fazla kaybı önlemek için pas geçmeyi seçer.

Bu, Şüphe Ajanının mükemmel stratejik esnekliğini gösterir.

04 Ablasyon çalışmaları ve bileşen analizi

Farklı düzende ToM algı planlama yöntemlerinin büyük dil modellerinin davranışını nasıl etkilediğini araştırmak için araştırmacılar, Leduc Hold'em ve plaagainst CFR üzerinde deneyler ve karşılaştırmalar yaptılar.

Şekil 5, farklı ToM seviyesi planlamasına sahip Şüphe Ajanlarının eylemlerinin yüzdesini göstermektedir ve çip verimi sonuçları Tablo 3'te gösterilmektedir.

Tablo 3: Şüphe Ajanının CFRonLeduc Hold'em ortamlarına karşı farklı ToM seviyeleri kullanılarak karşılaştırılması ve 100 oyundan sonra nicelleştirme sonuçları

Gözlemlenebilir:

Reflexion modülüne görevanilya planı, oyun sırasında daha fazla arama ve pas verme eğilimi vardır (CFR ve DMC'ye karşı en yüksek çağrı ve pas yüzdesi), bu da rakibe pas geçmesi için baskı uygulayamaz ve birçok gereksiz kayba yol açar.

Ancak, Tablo 3'te gösterildiği gibi, Vanilya programı en düşük çip kazancına sahiptir.

Birinci dereceden bir ToM kullanarak, Şüphe Ajanı kendi gücüne ve rakibinin gücüne ilişkin tahminlere dayalı kararlar verebilir.

Sonuç olarak, normal plandan daha fazla artacaktır, ancak gereksiz kayıpları en aza indirmek için diğer stratejilerden daha fazla katlanma eğilimindedir. Bununla birlikte, bu temkinli yaklaşım, anlayışlı rakip modeller tarafından kullanılabilir.

Örneğin, DMC genellikle en zayıf eli tutarken yükselirken, CFR bazen Şüphe Ajanına baskı yapmak için bir ara eli tutarken bile yükselir. Bu durumlarda, Şüphe Ajanının ikiye katlama eğilimi kayıplara yol açabilir.

Buna karşılık, Şüphe Ajanı, rakip modellerdeki davranış kalıplarını belirlemede ve bunlardan yararlanmada daha iyidir.

Spesifik olarak, CFR bir kart seçtiğinde (genellikle zayıf bir eli gösterir) veya DMC geçtiğinde (elinin ortak kartla tutarlı olmadığını gösterir), Şüphe Ajanı rakibi pas geçmeye teşvik etmek için blöf yapacaktır.

Sonuç olarak, Şüphe Ajanı üç planlama yöntemi arasında en yüksek doluluk oranını gösterdi.

Bu agresif strateji, Şüphe Ajanının zayıf kartlarla bile daha fazla fiş biriktirmesine ve böylece fiş kazançlarını en üst düzeye çıkarmasına olanak tanır.

Dikiz gözleminin etkilerini değerlendirmek için araştırmacılar, arka görüş gözleminin mevcut oyunlara dahil edilmediği bir ablasyon çalışması yürüttüler.

Tablo 4 ve 5'te gösterildiği gibi, Şüphe Ajanı, arka görüş gözlemi olmadan temel yönteme göre performans avantajını korur.

Tablo 4: Karşılaştırmalı sonuçlar, Ledek eli bağlamında rakip gözlemlerin elin tarihine dahil edilmesinin etkisini göstermektedir

Tablo 5: Karşılaştırma sonuçları, Şüphe Ajanı bir Leduc Hold'em ortamında CFR'ye karşı oynadığında, rakip gözlemlerinin etkisinin oyun geçmişine eklendiğini göstermektedir. Sonuç, farklı tohumlar kullanılarak yapılan 100 turdan sonra, kazanan ve kaybeden fiş sayısı 1 ile 14 arasında değişen kazanan ve kaybeden bir fiştir

05 Sonuç

Şüphe Ajanı'nın herhangi bir özel eğitimi yoktur ve Leduc Hold'em gibi farklı eksik bilgi oyunlarında CFR ve NFSP gibi bu oyunlar için özel olarak eğitilmiş algoritmaları yenmek için yalnızca GPT-4'ün ön bilgi ve akıl yürütme yeteneğini kullanır.

Bu da büyük modellerin eksik bilgi içeren oyunlarda güçlü performans elde etme potansiyeline sahip olduğunu gösteriyor.

Şüphe Ajanı, birinci ve ikinci dereceden teorik zihinsel modelleri entegre ederek rakiplerinin davranışlarını tahmin edebilir ve stratejisini buna göre ayarlayabilir. Bu, farklı rakip türlerine uyum sağlamayı mümkün kılar.

Şüphe Ajanı ayrıca, Coup ve Texas Hold'em gibi oyunlarda kararların yalnızca oyunun kurallarına ve gözlem kurallarına dayalı olarak alınmasına izin vererek, farklı eksik bilgi oyunları arasında genelleme yapma yeteneğini de gösterir.

Ancak Şüphe Ajanı'nın da bazı sınırlamaları vardır. Örneğin, farklı algoritmaların değerlendirilmesinin örneklem büyüklüğü, hesaplama maliyeti kısıtlamaları nedeniyle küçüktür.

Oyun başına yaklaşık 1 dolara mal olan yüksek çıkarım maliyetinin yanı sıra ve Şüphe Ajanı'nın çıktısı istemlere karşı oldukça hassastır, bir halüsinasyon sorunu vardır.

Aynı zamanda, karmaşık akıl yürütme ve hesaplamalar söz konusu olduğunda, Şüphe Ajanı da tatmin edici bir performans sergilemiyor.

Gelecekte, Suspicion Agent, karmaşık oyun ortamlarına daha iyi uyum sağlamak için hesaplama verimliliğini, akıl yürütme sağlamlığını artıracak ve çok modlu ve çok adımlı akıl yürütmeyi destekleyecektir.

Aynı zamanda, Şüphe Ajanı'nın eksik bilgi oyun oyunlarında uygulanması, gelecekte çok modlu bilgilerin entegrasyonuna da taşınabilir, daha gerçekçi etkileşimleri simüle edebilir ve çok oyunculu oyun ortamlarına genişletilebilir.

Kaynaklar:

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
1/3
1CandyDrop Airdrop Event 6.0
17k Popularity
2White House Crypto Report
35k Popularity
3Join Alpha RION Airdrop to Earn $40
9k Popularity
4Fed Holds Rates Decision
8k Popularity
5July Spark Program TOP 10 Creators Announced
2k Popularity

sitemap