El Dr. Dongda Chinese le pidió a GPT-4 que usara la "teoría de la mente" para jugar Depu y vencer a los algoritmos tradicionales y aplastar a los novatos humanos

2023-10-15 02:38:27

Autor: Shin Zhiyuan, fuente: Heart of the Metaverse

Suspicion Agent de la Universidad de Tokio utiliza GPT-4 para demostrar teorías de la mente (ToM) de alto orden en juegos de información incompletos.

En un juego de información completo, cada jugador conoce todos los elementos de la información.

Pero el juego de la información incompleta es diferente en el sentido de que simula la complejidad de tomar decisiones en el mundo real bajo información incierta o incompleta.

GPT-4, como el modelo más potente en la actualidad, tiene extraordinarias capacidades de recuperación de conocimientos y razonamiento.

Pero, ¿puede GPT-4 utilizar lo que ha aprendido para jugar juegos de información incompleta?

Con este fin, investigadores de la Universidad de Tokio presentaron Suspicion Agent, un agente innovador que utiliza las capacidades de GPT-4 para realizar juegos de información incompletos.

Dirección del papel:

En el estudio, el Agente de Sospecha basado en GPT-4 fue capaz de lograr diferentes funciones a través de una ingeniería de pistas adecuada y demostró una adaptabilidad superior en una serie de juegos de información incompletos.

Y lo que es más importante, GPT-4 demostró sólidas capacidades de teoría de la mente (ToM) de orden superior durante el juego.

GPT-4 puede utilizar su comprensión de la cognición humana para predecir los procesos de pensamiento, la susceptibilidad y las acciones de un adversario.

Esto significa que GPT-4 tiene la capacidad de comprender a los demás e influir intencionadamente en su comportamiento como los humanos.

Del mismo modo, los agentes basados en GPT-4 también superan a los algoritmos tradicionales en juegos de información incompletos, lo que puede estimular más aplicaciones de LLM en juegos de información incompletos.

01 Método de entrenamiento

Con el fin de permitir que LLM juegue varios juegos de juegos de información incompletos sin capacitación especializada, los investigadores dividieron toda la tarea en varios módulos, como se muestra en la figura a continuación, como el intérprete de observación, el análisis del modo de juego y el módulo de planificación.

Y, para mitigar el problema de que LLM puede ser engañado en juegos de información incompletos, los investigadores primero desarrollaron sugerencias estructuradas para ayudar a LLM a comprender las reglas del juego y el estado actual.

Para cada tipo de juego de información incompleta, se puede escribir la siguiente descripción de reglas estructuradas:

Reglas generales: introducción al juego, número de rondas y reglas de apuestas;

Descripción de la acción: (Descripción de la acción 1), (Descripción de la acción 2)......;

Reglas de ganar-perder: condiciones para ganar-perder o empatar;

Reglas de devolución de victorias y derrotas: recompensas o penalizaciones por ganar o perder un solo juego;

Reglas de victorias y derrotas de todo el juego: número de juegos y condiciones generales de victorias y derrotas.

En la mayoría de los entornos de juegos de información incompletos, los estados de los juegos suelen representarse como valores numéricos de bajo nivel, como vectores de clic, para facilitar el aprendizaje automático.

Pero con LLM, los estados de juego de bajo nivel se pueden convertir en texto en lenguaje natural, lo que ayuda a comprender patrones:

Descripción de la entrada: el tipo de entrada recibida, como un diccionario, una lista u otro formato, y describe el número de elementos en el estado del juego y el nombre de cada elemento;

Descripción del elemento: (Descripción del elemento 11, (descripción del elemento 2),....

Consejos de transición: Más instrucciones sobre cómo convertir estados de juego de bajo nivel en texto.

! [beyfMqHmFbURoO6EQO5AoTFYhrYUnnA6gLdnZWWU.png] (https://img.jinse.cn/7115940_watermarknone.png "7115940")

En los juegos de información incompletos, esta formulación facilita la comprensión de la interacción con el modelo.

Los investigadores introdujeron un método de programación nihilista con un módulo Reflexion diseñado para verificar automáticamente el historial de partidos, lo que permite a los LLM aprender y mejorar la planificación a partir de la experiencia histórica, y un módulo de planificación separado dedicado a tomar las decisiones correspondientes.

Sin embargo, los métodos de planificación nihilistas a menudo luchan por hacer frente a la incertidumbre inherente a los juegos de información incompletos, especialmente cuando se enfrentan a oponentes que son expertos en usar las estrategias de otros.

Inspirados por esta adaptación, los investigadores idearon un nuevo enfoque de planificación que aprovecha las capacidades de ToM de LLM para comprender el comportamiento de los oponentes y ajustar las estrategias en consecuencia.

02 Evaluación cuantitativa de experimentos

Como se muestra en la Tabla 1, Suspicion Agent superó todas las líneas de base, y Suspicion Agent basado en GPT-4 obtuvo el mayor número promedio de chips en la comparación.

Estos hallazgos demuestran claramente las ventajas del uso de grandes modelos de lenguaje en el campo de los juegos de información incompletos, y también demuestran la eficacia del marco propuesto.

El siguiente gráfico muestra el porcentaje de acciones realizadas por el agente de sospecha y el modelo de referencia.

Se puede observar:

Agente de sospecha vs CFR: El algoritmo CFR es una estrategia conservadora que tiende a ser conservadora y, a menudo, se retira cuando se tienen cartas débiles.

El Agente de Sospecha identificó con éxito este patrón y optó estratégicamente por subidas más frecuentes, ejerciendo presión sobre los CFR.

Esto permite que el Agente de Sospecha acumule más fichas incluso si sus cartas son débiles o comparables a las de CFR.

Agente de sospecha vs DMC: DMC se basa en algoritmos de búsqueda y emplea estrategias más diversas, incluido el farol. A menudo sube cuando su mano es más débil y más fuerte.

En respuesta, el Agente de Sospecha redujo la frecuencia de las subidas, dependiendo de sus propias manos y del comportamiento observado del DMC, y optó por igualar o retirarse más.

Agente de sospecha vs DON: El algoritmo DON adopta una postura más agresiva, casi siempre subiendo con cartas fuertes o intermedias, y nunca se retira.

El Agente de Sospecha descubrió esto y, a su vez, minimizó sus propias subidas, eligiendo igualar o retirarse más en función de las acciones del público y de DON.

Agente de sospecha vs NFSP: NFSP exhibe una estrategia de compra, eligiendo siempre pagar y nunca retirarse.

El Agente de Sospecha responde reduciendo la frecuencia de los rellenos y eligiendo retirarse en función de las acciones observadas por la comunidad y el NFSP.

Con base en los resultados del análisis anterior, se puede ver que Suspicion Agent es altamente adaptable y puede explotar las debilidades de las estrategias adoptadas por varios otros algoritmos.

Esto ilustra plenamente el razonamiento y la adaptabilidad de los grandes modelos lingüísticos en los juegos de información imperfecta.

03 Evaluación cualitativa

En la evaluación cualitativa, los investigadores evaluaron el Agente de Sospecha en tres juegos de información incompletos (Coup, Texas Hold'emLimit y Leduc Hold'em).

Coup, traducción al chino es un golpe de estado, un juego de cartas en el que los jugadores juegan como políticos que intentan derrocar los regímenes de otros jugadores. El objetivo del juego es sobrevivir en el juego y acumular poder.

Texas Hold'em Limit, o Texas Hold'em Limit, es un juego de cartas muy popular con varias variantes. "Límite" significa que hay un límite fijo en cada apuesta, lo que significa que los jugadores solo pueden realizar una cantidad fija de apuestas.

Leduc Hold'em es una versión simplificada de Texas Hold'em para el estudio de la teoría de juegos y la inteligencia artificial.

En cada caso, el Agente de Sospecha tiene una Jota en sus manos, mientras que el oponente tiene una Jota o una Reina.

Inicialmente, los oponentes optan por igualar en lugar de subir, lo que implica que tienen una mano más débil. Con arreglo a la estrategia de planificación normal, el agente de sospechas selecciona la llamada para ver las tarjetas públicas.

Cuando esto revela que la mano del oponente es débil, el oponente sube rápidamente la apuesta, dejando al Agente de Sospecha en una situación inestable, ya que Jack es la mano más débil.

Bajo la estrategia mental teórica de primer orden, el Agente de Sospecha elige retirarse para minimizar las pérdidas. Esta decisión se basa en observar que los oponentes suelen igualar cuando tienen la dama o la jota en sus manos.

Sin embargo, estas estrategias no aprovechan al máximo las debilidades especulativas de la mano del oponente. Este inconveniente se debe al hecho de que no tienen en cuenta cómo las acciones del agente sospechoso podrían afectar a la reacción del oponente.

Por el contrario, como se muestra en la Figura 9, las pistas simples permiten al agente de sospecha comprender cómo influir en las acciones del adversario. La elección intencional de subir ejerce presión sobre los oponentes para que se retiren y minimicen las pérdidas.

Por lo tanto, incluso si la fuerza de las manos es similar, el Agente de Sospecha puede ganar muchos juegos y, por lo tanto, ganar más fichas que la línea de base.

Además, como se muestra en la Figura 10, en el caso de que un oponente pague o responda a una subida del Agente de Sospecha (lo que indica que la mano del oponente es fuerte), el Agente de Sospecha ajusta rápidamente su estrategia y elige retirarse para evitar más pérdidas.

Esto demuestra la excelente flexibilidad estratégica de Suspicion Agent.

04 Estudios de ablación y análisis de componentes

Para explorar cómo los diferentes métodos de planificación de la percepción de ToM afectan el comportamiento de los grandes modelos de lenguaje, los investigadores realizaron experimentos y comparaciones en Leduc Hold'em y plaagainst CFR.

La Figura 5 muestra el porcentaje de acciones de los Agentes Sospechosos con diferente planificación a nivel de ToM, y los resultados de rendimiento de chip se muestran en la Tabla 3.

Tabla 3: Resultados de la comparación de Suspicion Agent con entornos de CFRonLeduc Hold'em utilizando diferentes niveles de TdM y resultados de cuantificación después de 100 partidas

Se puede observar:

Basado en el plan Reflexion modulevainilla, hay una tendencia a pagar y pasar más durante el juego (el porcentaje más alto de call and pass contra CFR y DMC), lo que no puede ejercer presión sobre el oponente para que se retire y conduce a muchas pérdidas innecesarias.

Sin embargo, como se muestra en la Tabla 3, el programa Vanilla tiene las ganancias de fichas más bajas.

Usando un TdM de primer orden, el Agente de Sospecha es capaz de tomar decisiones basadas en su propio poder y estimaciones del poder de su oponente.

Como resultado, subirá más veces que el plan normal, pero tiende a retirarse más veces que otras estrategias para minimizar las pérdidas innecesarias. Sin embargo, este enfoque cauteloso puede ser explotado por modelos rivales inteligentes.

Por ejemplo, DMC a menudo sube cuando tiene la mano más débil, mientras que CFR a veces incluso sube cuando tiene una mano intermedia para presionar al Agente de Sospecha. En estos casos, la tendencia del Agente de Sospecha a doblar la apuesta puede provocar pérdidas.

Por el contrario, el Agente de Sospecha es mejor para identificar y explotar patrones de comportamiento en modelos rivales.

Específicamente, cuando el CFR ha elegido una carta (generalmente indicando una mano débil) o cuando el DMC ha pasado (lo que indica que su mano no es consistente con la carta comunitaria), el Agente de Sospecha faroleará para inducir al oponente a retirarse.

Como resultado, Suspicion Agent mostró la tasa de llenado más alta entre los tres métodos de planificación.

Esta estrategia agresiva permite al Agente de Sospecha acumular más fichas incluso con cartas débiles, maximizando así las ganancias de fichas.

Para evaluar los efectos de la observación retrovisora, los investigadores llevaron a cabo un estudio de ablación en el que la observación retrovisora no se incorporó a los juegos actuales.

Como se muestra en las Tablas 4 y 5, el Agente de Sospecha mantiene su ventaja de rendimiento sobre el método de referencia sin observación retrovisora.

Tabla 4: Los resultados comparativos ilustran el impacto de la incorporación de las observaciones del oponente en la historia de la mano en el contexto de la mano de Ledek

Tabla 5: Los resultados de la comparación muestran que cuando el Agente de Sospecha juega contra CFR en un entorno de Leduc Hold'em, el impacto de las observaciones del oponente se añade al historial del juego. El resultado es una ficha ganadora y una perdedora después de 100 rondas utilizando diferentes semillas, con un número de fichas ganadoras y perdedoras que oscila entre 1 y 14

05 Conclusión

Suspicion Agent no tiene ningún entrenamiento especializado, y solo utiliza el conocimiento previo y la capacidad de razonamiento de GPT-4 para derrotar a los algoritmos entrenados específicamente para estos juegos, como CFR y NFSP, en diferentes juegos de información incompleta como Leduc Hold'em.

Esto demuestra que los modelos grandes tienen el potencial de lograr un gran rendimiento en juegos con información incompleta.

Al integrar modelos mentales teóricos de primer y segundo orden, el Agente de Sospecha puede predecir el comportamiento de sus oponentes y ajustar su estrategia en consecuencia. Esto permite adaptarse a diferentes tipos de oponentes.

Suspicion Agent también demuestra la capacidad de generalizar a través de diferentes juegos de información incompleta, lo que permite tomar decisiones en juegos como Coup y Texas Hold'em basándose únicamente en las reglas del juego y las reglas de observación.

Pero Suspicion Agent también tiene ciertas limitaciones. Por ejemplo, el tamaño de la muestra de la evaluación de diferentes algoritmos es pequeño debido a las restricciones de costos computacionales.

Además del alto costo de la inferencia, que cuesta casi $ 1 por juego, y la salida del Agente de sospecha es muy sensible a las indicaciones, existe un problema de alucinación.

Al mismo tiempo, cuando se trata de razonamientos y cálculos complejos, el Agente de sospecha también se desempeña de manera insatisfactoria.

En el futuro, Suspicion Agent mejorará la eficiencia computacional, la solidez del razonamiento y admitirá el razonamiento multimodal y de varios pasos para lograr una mejor adaptación a entornos de juego complejos.

Al mismo tiempo, la aplicación de Suspicion Agent en juegos de información incompleta también se puede migrar a la integración de información multimodal en el futuro, simulando interacciones más realistas y extendiéndose a entornos de juego multijugador.

Recursos:

Fuente: Golden Finance

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta

Recompensa
1
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1CandyDrop Airdrop Event 6.0
17k Popularidad
2White House Crypto Report
34k Popularidad
3Join Alpha RION Airdrop to Earn $40
9k Popularidad
4Fed Holds Rates Decision
8k Popularidad
5July Spark Program TOP 10 Creators Announced
2k Popularidad

Anclado