Dr. Dongda chinês pediu GPT-4 para usar "teoria da mente" para jogar Depu e vencer algoritmos tradicionais e esmagar novatos humanos

2023-10-15 02:38:27

Autor: Shin Zhiyuan, fonte: Coração do Metaverso

Suspicion Agent da Universidade de Tóquio usa GPT-4 para demonstrar teorias da mente de alta ordem (ToM) em jogos de informação incompletos.

Num jogo de informação completo, cada jogador conhece todos os elementos de informação.

Mas o jogo da informação incompleta é diferente, pois simula a complexidade de tomar decisões no mundo real sob informações incertas ou incompletas.

O GPT-4, como o modelo mais poderoso da atualidade, tem capacidades extraordinárias de recuperação de conhecimento e raciocínio.

Mas será que o GPT-4 pode usar o que aprendeu para jogar jogos de informação incompleta?

Para este fim, pesquisadores da Universidade de Tóquio apresentaram o Suspicion Agent, um agente inovador que usa as capacidades do GPT-4 para realizar jogos de informação incompletos.

Endereço em papel:

No estudo, o Suspicion Agent baseado em GPT-4 foi capaz de alcançar diferentes funções através de engenharia de dicas adequada e demonstrou adaptabilidade superior em uma série de jogos de informação incompletos.

Mais importante ainda, o GPT-4 demonstrou fortes capacidades de teoria da mente de ordem superior (ToM) durante o jogo.

O GPT-4 pode usar sua compreensão da cognição humana para prever os processos de pensamento, suscetibilidade e ações de um adversário.

Isto significa que o GPT-4 tem a capacidade de compreender os outros e influenciar intencionalmente o seu comportamento como os seres humanos.

Da mesma forma, os agentes baseados em GPT-4 também superam os algoritmos tradicionais em jogos de informação incompleta, o que pode estimular mais aplicações de LLM em jogos de informação incompleta.

#01 Método de treinamento

A fim de permitir que LLM para jogar vários jogos de jogos de informação incompletos sem treinamento especializado, os pesquisadores dividiram toda a tarefa em vários módulos, como mostrado na figura abaixo, como o interpretador de observação, análise de modo de jogo e módulo de planejamento.

E, para mitigar o problema de que o LLM pode ser enganado em jogos de informação incompletos, os pesquisadores primeiro desenvolveram dicas estruturadas para ajudar o LLM a entender as regras do jogo e o estado atual.

Para cada tipo de jogo de informação incompleto, a seguinte descrição de regra estruturada pode ser escrita:

Regras gerais: introdução ao jogo, número de rondas e regras de apostas;

Descrição da ação: (Descrição da ação 1), (Descrição da ação 2)......;

Regras ganha-perde: condições para ganha-perde ou empate-entrada;

Regras de retorno ganha-perde: recompensas ou penalidades por ganhar ou perder um único jogo;

Regras de vitória e perda de todo o jogo: número de jogos e condições gerais de ganha-perde.

Na maioria dos ambientes de jogos de informação incompleta, os estados do jogo são geralmente representados como valores numéricos de baixo nível, como vetores de clique, para facilitar o aprendizado de máquina.

Mas com LLM, estados de jogo de baixo nível podem ser convertidos em texto em linguagem natural, ajudando assim a entender padrões:

Descrição da entrada: O tipo de entrada recebida, como um dicionário, lista ou outro formato, e descreve o número de elementos no estado do jogo e o nome de cada elemento;

Descrição do elemento: (Descrição do elemento 11, (descrição do elemento 2),....

Dicas de transição: Mais orientações sobre como converter estados de jogos de baixo nível em texto.

! [beyfMqHmFbURoO6EQO5AoTFYhrYUnnA6gLdnZWWU.png] (https://img.jinse.cn/7115940_watermarknone.png "7115940")

Em jogos de informação incompletos, esta formulação facilita a compreensão da interação com o modelo.

Os pesquisadores introduziram um método de programação niilista com um módulo de reflexão projetado para verificar automaticamente o histórico de partidas, permitindo que os LLMs aprendam e melhorem o planejamento a partir da experiência histórica, e um módulo de planejamento separado dedicado a tomar decisões correspondentes.

No entanto, os métodos de planejamento niilistas muitas vezes lutam para lidar com a incerteza inerente aos jogos de informação incompletos, especialmente quando confrontados com adversários que são hábeis em usar as estratégias dos outros.

Inspirados por essa adaptação, os pesquisadores desenvolveram uma nova abordagem de planejamento que aproveita as capacidades ToM do LLM para entender o comportamento dos oponentes e ajustar as estratégias de acordo.

#02 Avaliação quantitativa de experimentos

Como mostrado na Tabela 1, o Agente de Suspeita superou todas as linhas de base, e o Agente de Suspeita baseado em GPT-4 obteve o maior número médio de chips na comparação.

Estes resultados demonstram fortemente as vantagens da utilização de grandes modelos linguísticos no domínio dos jogos de informação incompletos e demonstram também a eficácia do quadro proposto.

O gráfico abaixo mostra a percentagem de ações tomadas pelo Agente de Suspeita e o modelo de base.

Observa-se:

Agente de suspeita vs CFR: O algoritmo CFR é uma estratégia conservadora que tende a ser conservadora e muitas vezes dobra quando segura cartas fracas.

O Agente de Suspeita identificou com sucesso este padrão e optou estrategicamente por aumentos mais frequentes, colocando pressão sobre os CFRs.

Isso permite que o Agente de Suspeita acumule mais fichas, mesmo que suas cartas sejam fracas ou comparáveis às do CFR.

Agente de suspeita vs DMC: O DMC é baseado em algoritmos de busca e emprega estratégias mais diversas, incluindo blefe. Muitas vezes levanta quando a sua mão está mais fraca e mais forte.

Em resposta, o Agente de Suspeita reduziu a frequência de aumentos, dependendo de suas próprias mãos e do comportamento do DMC, e optou por ligar ou dobrar mais.

Suspicion Agent vs DON: O algoritmo DON assume uma postura mais agressiva, quase sempre levantando com cartas fortes ou intermediárias, e nunca dobrando.

O Agente de Suspeita descobriu isso e, por sua vez, minimizou seus próprios aumentos, optando por chamar ou dobrar mais com base nas ações do público e do DON.

Agente de Suspeita vs NFSP: NFSP exibe uma estratégia de chamada, optando por sempre ligar e nunca dobrar.

O Agente de Suspeita responde reduzindo a frequência de preenchimentos e optando por dobrar com base nas ações observadas pela comunidade e pela NFSP.

Com base nos resultados da análise acima, pode-se ver que o Agente de Suspeita é altamente adaptável e pode explorar as fraquezas das estratégias adotadas por vários outros algoritmos.

Isto ilustra plenamente o raciocínio e a adaptabilidade de grandes modelos linguísticos em jogos de informação imperfeitos.

#03 Avaliação qualitativa

Na avaliação qualitativa, os pesquisadores avaliaram o Agente de Suspeita em três jogos de jogos de informação incompletos (Coup, Texas Hold'emLimit e Leduc Hold'em).

Golpe, tradução chinesa é um golpe, um jogo de cartas em que os jogadores jogam como políticos tentando derrubar regimes de outros jogadores. O objetivo do jogo é sobreviver no jogo e acumular poder.

Texas Hold'em Limit, ou Texas Hold'em Limit, é um jogo de cartas muito popular com várias variantes. "Limite" significa que existe um limite fixo para cada aposta, o que significa que os jogadores só podem fazer uma quantidade fixa de apostas.

Leduc Hold'em é uma versão simplificada do Texas Hold'em para o estudo da teoria dos jogos e inteligência artificial.

Em cada caso, o Agente de Suspeita tem um Jack em suas mãos, enquanto o oponente tem um Jack ou uma Rainha.

Inicialmente, os opositores optam por chamar em vez de levantar, dando a entender que têm uma mão mais fraca. Na estratégia normal de planejamento, o Agente de Suspeita seleciona a chamada para visualizar os cartões públicos.

Quando isso revela que a mão do oponente é fraca, o oponente rapidamente levanta a aposta, deixando o Agente de Suspeita em uma situação instável, já que Jack é a mão mais fraca.

Sob a estratégia mental teórica de primeira ordem, o Agente de Suspeita escolhe dobrar-se para minimizar as perdas. Esta decisão baseia-se na observação de que os adversários costumam ligar quando têm Queen ou Jack nas mãos.

No entanto, estas estratégias não conseguem tirar o máximo partido das fraquezas especulativas da mão do adversário. Esta desvantagem decorre do fato de que eles não consideram como as ações do Agente de Suspeita podem afetar a reação do oponente.

Em contrapartida, como mostra a Figura 9, dicas simples permitem que o Agente de Suspeita entenda como influenciar as ações do adversário. Escolher intencionalmente aumentar coloca pressão sobre os adversários para dobrar e minimizar as perdas.

Portanto, mesmo que a força das mãos seja semelhante, o Agente de Suspeita é capaz de ganhar muitos jogos e, assim, ganhar mais fichas do que a linha de base.

Além disso, como mostrado na Figura 10, no caso de uma chamada ou resposta de um oponente a um aumento do Agente de Suspeita (o que indica que a mão do oponente é forte), o Agente de Suspeita ajusta rapidamente sua estratégia e escolhe dobrar para evitar mais perdas.

Isso mostra a excelente flexibilidade estratégica do Agente de Suspeita.

04 Estudos de ablação e análise de componentes

Para explorar como diferentes métodos de planejamento de perceção ToM de ordem afetam o comportamento de grandes modelos de linguagem, os pesquisadores conduziram experimentos e comparações em Leduc Hold'em e plaagainst CFR.

A Figura 5 mostra a porcentagem de ações de Agentes de Suspeita com diferentes níveis de planejamento de ToM, e os resultados de rendimento de chips são apresentados na Tabela 3.

Tabela 3: Resultados de comparação do Agente de Suspeita contra ambientes CFRonLeduc Hold'em usando diferentes níveis de ToM e resultados de quantificação após 100 jogos

Observa-se:

Com base no plano Reflexion modulevanilla, há uma tendência a chamar e passar mais durante o jogo (a maior percentagem de chamada e passe contra CFR e DMC), o que não pode exercer pressão sobre o adversário para dobrar e leva a muitas perdas desnecessárias.

No entanto, como mostra a Tabela 3, o programa Vanilla tem os menores ganhos de chips.

Usando um ToM de primeira ordem, o Agente de Suspeita é capaz de tomar decisões com base em seu próprio poder e estimativas do poder de seu oponente.

Como resultado, ele aumentará mais vezes do que o plano normal, mas tende a dobrar mais vezes do que outras estratégias, a fim de minimizar perdas desnecessárias. No entanto, esta abordagem cautelosa pode ser explorada por modelos rivais experientes.

Por exemplo, o DMC muitas vezes levanta quando segura a mão mais fraca, enquanto o CFR às vezes até levanta quando segura uma mão intermediária para pressionar o Agente de Suspeita. Nestes casos, a tendência do Agente de Suspeita para dobrar a aposta pode levar a perdas.

Em contraste, o Agente de Suspeita é melhor em identificar e explorar padrões de comportamento em modelos rivais.

Especificamente, quando o CFR escolheu uma carta (geralmente indicando uma mão fraca) ou quando o DMC passou (indicando que sua mão não é consistente com a carta da comunidade), o Agente de Suspeita blefará para induzir o oponente a dobrar.

Como resultado, o Agente de Suspeita apresentou a maior taxa de preenchimento entre os três métodos de planejamento.

Esta estratégia agressiva permite que o Agente de Suspeita acumule mais fichas mesmo com cartões fracos, maximizando assim os ganhos de fichas.

Para avaliar os efeitos da observação retrovisora, os pesquisadores realizaram um estudo de ablação no qual a observação retrovisora não foi incorporada aos jogos atuais.

Como mostrado nas Tabelas 4 e 5, o Agente de Suspeita mantém sua vantagem de desempenho sobre o método basal sem observação retrovisora.

Tabela 4: Resultados comparativos ilustram o impacto da incorporação de observações opositoras na história da mão no contexto da mão Ledek

Tabela 5: Os resultados da comparação mostram que quando o Agente de Suspeita joga contra CFR num ambiente Leduc Hold'em, o impacto das observações do adversário é adicionado ao histórico do jogo. O resultado é um chip vencedor e perdedor após 100 rodadas usando sementes diferentes, com o número de fichas vencedoras e perdedoras variando de 1 a 14

05 Conclusão

O Suspicion Agent não tem qualquer formação especializada, e apenas utiliza o conhecimento prévio e a capacidade de raciocínio do GPT-4 para derrotar algoritmos treinados especificamente para estes jogos, tais como CFR e NFSP, em diferentes jogos de informação incompleta, como o Leduc Hold'em.

Isso mostra que modelos grandes têm o potencial de alcançar um forte desempenho em jogos com informações incompletas.

Ao integrar modelos mentais teóricos de primeira e segunda ordem, o Agente de Suspeita pode prever o comportamento de seus oponentes e ajustar sua estratégia de acordo. Isso torna possível a adaptação a diferentes tipos de oponentes.

Suspicion Agent também demonstra a capacidade de generalizar através de diferentes jogos de informação incompleta, permitindo que decisões sejam tomadas em jogos como Coup e Texas Hold'em com base apenas nas regras do jogo e nas regras de observação.

Mas o Agente de Suspeita também tem certas limitações. Por exemplo, o tamanho da amostra da avaliação de diferentes algoritmos é pequeno devido a restrições de custo computacional.

Além do alto custo de inferência, que custa quase US $ 1 por jogo, e a saída do Agente de Suspeita é altamente sensível a prompts, há um problema de alucinação.

Ao mesmo tempo, quando se trata de raciocínio e cálculos complexos, o Agente de Suspeita também tem um desempenho insatisfatório.

No futuro, o Suspicion Agent melhorará a eficiência computacional, a robustez do raciocínio e apoiará o raciocínio multimodal e em várias etapas para alcançar uma melhor adaptação a ambientes de jogo complexos.

Ao mesmo tempo, a aplicação do Suspicion Agent em jogos de jogos de informação incompletos também pode ser migrada para a integração de informação multimodal no futuro, simulando interações mais realistas e estendendo-se a ambientes de jogo multijogador.

Recursos:

Fonte: Golden Finance

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

1 Curtidas

Recompensa
1
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
1/3
1CandyDrop Airdrop Event 6.0
17k Popularidade
2White House Crypto Report
34k Popularidade
3Join Alpha RION Airdrop to Earn $40
9k Popularidade
4Fed Holds Rates Decision
8k Popularidade
5July Spark Program TOP 10 Creators Announced
2k Popularidade

Marcar

sitemap