Dr. Dongda Chinese meminta GPT-4 untuk menggunakan "teori pikiran" untuk memainkan Depu dan mengalahkan algoritma tradisional dan menghancurkan pemula manusia

2023-10-15 02:38:27

Penulis: Shin Zhiyuan, sumber: Heart of the Metaverse

Agen Kecurigaan dari Universitas Tokyo menggunakan GPT-4 untuk mendemonstrasikan teori pikiran tingkat tinggi (ToM) dalam permainan informasi yang tidak lengkap.

Dalam permainan informasi yang lengkap, setiap pemain mengetahui semua elemen informasi.

Tetapi permainan informasi yang tidak lengkap berbeda karena mensimulasikan kompleksitas pengambilan keputusan di dunia nyata di bawah informasi yang tidak pasti atau tidak lengkap.

GPT-4, sebagai model paling kuat saat ini, memiliki kemampuan pengambilan pengetahuan dan penalaran yang luar biasa.

Tetapi bisakah GPT-4 menggunakan apa yang telah dipelajarinya untuk memainkan game informasi yang tidak lengkap?

Untuk tujuan ini, para peneliti di Universitas Tokyo memperkenalkan Agen Kecurigaan, agen inovatif yang menggunakan kemampuan GPT-4 untuk melakukan permainan informasi yang tidak lengkap.

Alamat kertas:

Dalam studi tersebut, Agen Kecurigaan berbasis GPT-4 mampu mencapai fungsi yang berbeda melalui rekayasa petunjuk yang tepat dan menunjukkan kemampuan beradaptasi yang unggul dalam serangkaian permainan informasi yang tidak lengkap.

Yang terpenting, GPT-4 menunjukkan kemampuan teori pikiran tingkat tinggi (ToM) yang kuat selama pertandingan.

GPT-4 dapat menggunakan pemahamannya tentang kognisi manusia untuk memprediksi proses berpikir, kerentanan, dan tindakan musuh.

Ini berarti bahwa GPT-4 memiliki kemampuan untuk memahami orang lain dan dengan sengaja mempengaruhi perilaku mereka seperti manusia.

Demikian pula, agen berbasis GPT-4 juga mengungguli algoritma tradisional dalam permainan informasi yang tidak lengkap, yang dapat merangsang lebih banyak aplikasi LLM dalam permainan informasi yang tidak lengkap.

01 Metode pelatihan

Untuk memungkinkan LLM memainkan berbagai permainan permainan informasi yang tidak lengkap tanpa pelatihan khusus, para peneliti memecah seluruh tugas menjadi beberapa modul seperti yang ditunjukkan pada gambar di bawah ini, seperti penerjemah observasi, analisis mode permainan, dan modul perencanaan.

Dan, untuk mengurangi masalah bahwa LLM dapat disesatkan dalam permainan informasi yang tidak lengkap, para peneliti pertama kali mengembangkan petunjuk terstruktur untuk membantu LLM memahami aturan permainan dan keadaan saat ini.

Untuk setiap jenis permainan informasi yang tidak lengkap, deskripsi aturan terstruktur berikut dapat ditulis:

Aturan umum: pengantar permainan, jumlah putaran dan aturan taruhan;

Deskripsi tindakan: (Deskripsi Tindakan 1), (Deskripsi Tindakan 2) ......;

Aturan menang-kalah: kondisi untuk menang-kalah atau seri-inning;

Aturan pengembalian menang-kalah: hadiah atau penalti untuk menang atau kalah dalam satu pertandingan;

Aturan menang dan kalah seluruh permainan: jumlah permainan dan kondisi menang-kalah secara keseluruhan.

Di sebagian besar lingkungan permainan informasi yang tidak lengkap, status permainan biasanya direpresentasikan sebagai nilai numerik tingkat rendah, seperti vektor klik, untuk memfasilitasi pembelajaran mesin.

Tetapi dengan LLM, status permainan tingkat rendah dapat diubah menjadi teks bahasa alami, sehingga membantu memahami pola:

Deskripsi input: Jenis input yang diterima, seperti kamus, daftar, atau format lainnya, dan menjelaskan jumlah elemen dalam status game dan nama setiap elemen;

Deskripsi elemen: (Deskripsi elemen 11, (deskripsi elemen 2),....

Tips Transisi: Panduan lebih lanjut tentang mengonversi status game tingkat rendah menjadi teks.

! [beyfMqHmFbURoO6EQO5AoTFYhrYUnnA6gLdnZWWU.png] (https://img-cdn.gateio.im/webp-social/moments-901ff9e656-f8e9c07fe4-dd1a6f-69ad2a.webp "7115940")

Dalam permainan informasi yang tidak lengkap, formulasi ini membuatnya lebih mudah untuk memahami interaksi dengan model.

Para peneliti memperkenalkan metode pemrograman nihilistik dengan modul Reflexion yang dirancang untuk secara otomatis memeriksa riwayat pertandingan, memungkinkan LLM untuk belajar dan meningkatkan perencanaan dari pengalaman historis, dan modul perencanaan terpisah yang didedikasikan untuk membuat keputusan yang sesuai.

Namun, metode perencanaan nihilistik sering berjuang untuk mengatasi ketidakpastian yang melekat dalam permainan informasi yang tidak lengkap, terutama ketika dihadapkan dengan lawan yang mahir menggunakan strategi orang lain.

Terinspirasi oleh adaptasi ini, para peneliti merancang pendekatan perencanaan baru yang memanfaatkan kemampuan ToM LLM untuk memahami perilaku lawan dan menyesuaikan strategi yang sesuai.

02 Evaluasi kuantitatif eksperimen

Seperti yang ditunjukkan pada Tabel 1, Agen Kecurigaan mengungguli semua baseline, dan Agen Kecurigaan berbasis GPT-4 memperoleh jumlah rata-rata chip tertinggi dalam perbandingan.

Temuan ini sangat menunjukkan keuntungan menggunakan model bahasa besar di bidang permainan informasi yang tidak lengkap, dan juga menunjukkan efektivitas kerangka kerja yang diusulkan.

Grafik di bawah ini menunjukkan persentase tindakan yang diambil oleh Agen Kecurigaan dan model dasar.

Dapat diamati:

Agen Kecurigaan vs CFR: Algoritma CFR adalah strategi konservatif yang cenderung konservatif dan sering terlipat saat memegang kartu lemah.

Agen Kecurigaan berhasil mengidentifikasi pola ini dan secara strategis memilih kenaikan gaji yang lebih sering, memberikan tekanan lipat pada CFR.

Hal ini memungkinkan Agen Kecurigaan untuk mengumpulkan lebih banyak chip bahkan jika kartunya lemah atau sebanding dengan CFR.

Agen Kecurigaan vs DMC: DMC didasarkan pada algoritma pencarian dan menggunakan strategi yang lebih beragam, termasuk menggertak. Ia sering mengangkat ketika tangannya paling lemah dan terkuat.

Sebagai tanggapan, Agen Kecurigaan mengurangi frekuensi kenaikan gaji, tergantung pada tangan mereka sendiri dan mengamati perilaku DMC, dan memilih untuk menelepon atau melipat lebih banyak.

Agen Kecurigaan vs DON: Algoritma DON mengambil sikap yang lebih agresif, hampir selalu menaikkan dengan kartu yang kuat atau menengah, dan tidak pernah melipat.

Agen Kecurigaan menemukan ini dan pada gilirannya meminimalkan kenaikan gajinya sendiri, memilih untuk menelepon atau melipat lebih banyak berdasarkan tindakan publik dan DON.

Agen Kecurigaan vs NFSP: NFSP menunjukkan strategi panggilan, memilih untuk selalu menelepon dan tidak pernah melipat.

Agen Kecurigaan merespons dengan mengurangi frekuensi pengisian dan memilih untuk melipat berdasarkan tindakan yang diamati oleh komunitas dan NFSP.

Berdasarkan hasil analisis di atas, dapat dilihat bahwa Suspicion Agent sangat mudah beradaptasi dan dapat memanfaatkan kelemahan strategi yang diadopsi oleh berbagai algoritma lainnya.

Ini sepenuhnya menggambarkan penalaran dan kemampuan beradaptasi model bahasa besar dalam permainan informasi yang tidak sempurna.

03 Penilaian kualitatif

Dalam evaluasi kualitatif, para peneliti mengevaluasi Agen Kecurigaan dalam tiga permainan informasi yang tidak lengkap (Kudeta, Texas Hold'emLimit, dan Leduc Hold'em).

Kudeta, terjemahan Cina adalah kudeta, permainan kartu di mana pemain bermain sebagai politisi yang mencoba menggulingkan rezim pemain lain. Tujuan dari permainan ini adalah untuk bertahan hidup dalam permainan dan mengumpulkan kekuatan.

Texas Hold'em Limit, atau Texas Hold'em Limit, adalah permainan kartu yang sangat populer dengan beberapa varian. "Batas" berarti bahwa ada batas tetap pada setiap taruhan, yang berarti bahwa pemain hanya dapat menempatkan jumlah taruhan yang tetap.

Leduc Hold'em adalah versi sederhana dari Texas Hold'em untuk mempelajari teori permainan dan kecerdasan buatan.

Dalam setiap kasus, Agen Kecurigaan memiliki Jack di tangan mereka, sedangkan lawan memiliki Jack atau Queen.

Lawan awalnya memilih untuk memanggil daripada mengangkat, menyiratkan bahwa mereka memiliki tangan yang lebih lemah. Di bawah strategi perencanaan normal, Agen Kecurigaan memilih panggilan untuk melihat kartu publik.

Ketika ini mengungkapkan bahwa tangan lawan lemah, lawan dengan cepat menaikkan taruhan, meninggalkan Agen Kecurigaan dalam situasi yang tidak stabil, karena Jack adalah tangan terlemah.

Di bawah strategi mental teoretis orde pertama, Agen Kecurigaan memilih untuk melipat untuk meminimalkan kerugian. Keputusan ini didasarkan pada pengamatan bahwa lawan biasanya menelepon ketika mereka memiliki Queen atau Jack di tangan mereka.

Namun, strategi ini gagal memanfaatkan sepenuhnya kelemahan spekulatif tangan lawan. Kelemahan ini berasal dari fakta bahwa mereka tidak mempertimbangkan bagaimana tindakan Agen Kecurigaan dapat mempengaruhi reaksi lawan.

Sebaliknya, seperti yang ditunjukkan pada Gambar 9, petunjuk sederhana memungkinkan Agen Kecurigaan untuk memahami bagaimana mempengaruhi tindakan musuh. Sengaja memilih untuk menaikkan memberi tekanan pada lawan untuk melipat dan meminimalkan kerugian.

Oleh karena itu, meskipun kekuatan tangan serupa, Agen Kecurigaan mampu memenangkan banyak permainan dan dengan demikian memenangkan lebih banyak chip daripada baseline.

Selain itu, seperti yang ditunjukkan pada Gambar 10, jika terjadi panggilan lawan atau respons terhadap kenaikan dari Agen Kecurigaan (yang menunjukkan bahwa tangan lawan kuat), Agen Kecurigaan dengan cepat menyesuaikan strateginya dan memilih untuk melipat untuk mencegah kerugian lebih lanjut.

Ini menunjukkan fleksibilitas strategis yang sangat baik dari Agen Kecurigaan.

04 Studi ablasi dan analisis komponen

Untuk mengeksplorasi bagaimana metode perencanaan persepsi ToM urutan yang berbeda mempengaruhi perilaku model bahasa besar, para peneliti melakukan eksperimen dan perbandingan pada Leduc Hold'em dan plaagainst CFR.

Gambar 5 menunjukkan persentase tindakan Agen Kecurigaan dengan perencanaan tingkat ToM yang berbeda, dan hasil hasil chip ditunjukkan pada Tabel 3.

Tabel 3: Hasil perbandingan Agen Kecurigaan terhadap lingkungan CFRonLeduc Hold'em menggunakan berbagai tingkat ToM dan hasil kuantifikasi setelah 100 pertandingan

Dapat diamati:

Berdasarkan rencana modulvanilla Reflexion, ada kecenderungan untuk memanggil dan mengoper lebih banyak selama pertandingan (persentase panggilan dan operan tertinggi melawan CFR dan DMC), yang tidak dapat memberikan tekanan pada lawan untuk melipat dan menyebabkan banyak kerugian yang tidak perlu.

Namun, seperti yang ditunjukkan pada Tabel 3, program Vanilla memiliki keuntungan chip terendah.

Menggunakan ToM orde pertama, Agen Kecurigaan mampu membuat keputusan berdasarkan kekuatan mereka sendiri dan perkiraan kekuatan lawan mereka.

Akibatnya, itu akan meningkat lebih banyak kali daripada rencana normal, tetapi cenderung melipat lebih banyak daripada strategi lain untuk meminimalkan kerugian yang tidak perlu. Namun, pendekatan hati-hati ini dapat dimanfaatkan oleh model saingan yang cerdas.

Misalnya, DMC sering mengangkat ketika memegang tangan terlemah, sementara CFR kadang-kadang bahkan mengangkat ketika memegang tangan perantara untuk menekan Agen Kecurigaan. Dalam kasus ini, kecenderungan Agen Kecurigaan untuk menggandakan dapat menyebabkan kerugian.

Sebaliknya, Agen Kecurigaan lebih baik dalam mengidentifikasi dan mengeksploitasi pola perilaku dalam model saingan.

Secara khusus, ketika CFR telah memilih kartu (biasanya menunjukkan tangan yang lemah) atau ketika DMC telah lulus (menunjukkan bahwa tangannya tidak konsisten dengan kartu komunitas), Agen Kecurigaan akan menggertak untuk mendorong lawan untuk melipat.

Hasilnya, Suspicion Agent menunjukkan tingkat pengisian tertinggi di antara ketiga metode perencanaan.

Strategi agresif ini memungkinkan Agen Kecurigaan untuk mengumpulkan lebih banyak chip bahkan dengan kartu yang lemah, sehingga memaksimalkan keuntungan chip.

Untuk menilai efek pengamatan tampak belakang, para peneliti melakukan studi ablasi di mana pengamatan tampak belakang tidak dimasukkan ke dalam permainan saat ini.

Seperti yang ditunjukkan pada Tabel 4 dan 5, Agen Kecurigaan mempertahankan keunggulan kinerjanya dibandingkan metode dasar tanpa pengamatan pandangan belakang.

Tabel 4: Hasil komparatif menggambarkan dampak dari menggabungkan pengamatan lawan ke dalam sejarah tangan dalam konteks tangan Ledek

Tabel 5: Hasil perbandingan menunjukkan bahwa ketika Agen Kecurigaan bermain melawan CFR di lingkungan Leduc Hold'em, dampak pengamatan lawan ditambahkan ke riwayat permainan. Hasilnya adalah chip menang dan kalah setelah 100 putaran menggunakan benih yang berbeda, dengan jumlah chip menang dan kalah mulai dari 1 hingga 14

05 Kesimpulan

Agen Kecurigaan tidak memiliki pelatihan khusus, dan hanya menggunakan pengetahuan dan kemampuan penalaran GPT-4 sebelumnya untuk mengalahkan algoritma yang dilatih khusus untuk game-game ini, seperti CFR dan NFSP, dalam berbagai game informasi yang tidak lengkap seperti Leduc Hold'em.

Ini menunjukkan bahwa model besar memiliki potensi untuk mencapai kinerja yang kuat dalam game dengan informasi yang tidak lengkap.

Dengan mengintegrasikan model mental teoritis orde pertama dan kedua, Agen Kecurigaan dapat memprediksi perilaku lawan-lawannya dan menyesuaikan strateginya. Ini memungkinkan untuk beradaptasi dengan berbagai jenis lawan.

Agen Kecurigaan juga menunjukkan kemampuan untuk menggeneralisasi berbagai permainan informasi yang tidak lengkap, memungkinkan keputusan dibuat dalam permainan seperti Coup dan Texas Hold'em hanya berdasarkan aturan permainan dan aturan pengamatan.

Namun Suspicion Agent juga memiliki batasan tertentu. Misalnya, ukuran sampel evaluasi algoritma yang berbeda kecil karena kendala biaya komputasi.

Selain tingginya biaya inferensi, yang harganya hampir $ 1 per game, dan output dari Agen Kecurigaan sangat sensitif terhadap petunjuk, ada masalah halusinasi.

Pada saat yang sama, ketika datang ke penalaran dan perhitungan yang rumit, Agen Kecurigaan juga berkinerja tidak memuaskan.

Di masa depan, Suspicion Agent akan meningkatkan efisiensi komputasi, ketahanan penalaran, dan mendukung penalaran multimodal dan multi-langkah untuk mencapai adaptasi yang lebih baik terhadap lingkungan permainan yang kompleks.

Pada saat yang sama, penerapan Agen Kecurigaan dalam permainan permainan informasi yang tidak lengkap juga dapat dimigrasikan ke integrasi informasi multimodal di masa depan, mensimulasikan interaksi yang lebih realistis dan meluas ke lingkungan permainan multi-pemain.

Sumber daya:

Sumber: Golden Finance

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka

Hadiah
1
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1CandyDrop Airdrop Event 6.0
15555 Popularitas
2White House Crypto Report
32504 Popularitas
3Join Alpha RION Airdrop to Earn $40
7953 Popularitas
4Fed Holds Rates Decision
7025 Popularitas
5July Spark Program TOP 10 Creators Announced
1021 Popularitas

Sematkan

peta situs