¿engañado? ¿GPT-4 en realidad no tiene capacidad de razonamiento? !

Question

Organizar | Tu MinListado | CSDN (ID: CSDNnews)![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4ca4684bfe-dd1a6f-1c6801) *Fuente de la imagen: Generada por la herramienta de IA Unbounded*En marzo de este año, OpenAI lanzó el modelo grande GPT-4, que trajo capacidades de razonamiento, cálculo y lógica más sólidas que GPT-3.5 detrás de ChatGPT, y también provocó un aumento del uso universal. En el proceso de utilizar investigadores, desarrolladores y diseñadores en varios campos, "GPT-4 es el modelo grande más líder" parece haberse convertido en un resultado reconocido.Sin embargo, el 7 de agosto, Konstantine Arkoudas, quien se graduó del Instituto de Tecnología de Massachusetts y actualmente es el CTO de Dyania Health, escribió recientemente una preimpresión titulada "GPT-4 Can't Reason" (GPT-4 Can't Reason) ( hacer referencia a los borradores de artículos en la literatura científica que aún no se han publicado en revistas científicas revisadas por pares han causado un gran revuelo en la industria.El documento señala que GPT-4 tiene mejoras sustanciales en todos los ámbitos en comparación con GPT 3.5. Sin embargo, si bien logra mejoras impresionantes, existen buenas razones para ser muy escéptico acerca de las capacidades de inferencia de GPT-4. Este documento analiza la naturaleza del razonamiento, critica la formulación actual de los problemas de razonamiento en la comunidad de PNL y la forma actual de evaluar el desempeño del razonamiento LLM, y comparte una colección de 21 problemas de razonamiento diferentes basados en GPT-4.Conclusión final: **A pesar de destellos ocasionales de brillantez analítica, GPT-4 actualmente es completamente incapaz de razonar. **Dirección en papel:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5818562a45-dd1a6f-1c6801) Una palabra desencadenó mil ondas ¿No es razonamiento que GPT-4 haya generado un código de juego tan solo unos minutos antes?## **¿Qué es la inferencia? **De hecho, a principios de enero de este año, el autor del artículo, Konstantine Arkoudas, compartió una evaluación informal de ChatGPT en la plataforma Medium. La evaluación involucró una amplia gama de disciplinas, incluida la NLU tradicional, la física popular, la recuperación de información, teoría de la mente, razonamiento espacial, razonamiento lógico simple y matemáticas.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1a1a1a727e-dd1a6f-1c6801) DIRECCIÓN:Las principales conclusiones a las que se llegó en ese momento fueron: ChatGPT es un avance innovador; los sistemas basados en LLM no son solo "loros aleatorios", sino que crean abstracciones reales y pueden mostrar creatividad; dichos sistemas traerán muchas aplicaciones nuevas y emocionantes; a pesar de lo mencionado anteriormente logros, estos sistemas siguen siendo severamente limitados en sus capacidades de inferencia.En su opinión, la versión mejorada de GPT-4 sigue siendo la misma hoy en día, e incluso no tiene capacidad de razonamiento.En el documento, Konstantine Arkoudas señaló que el debate de la industria sobre "si LLM tiene capacidad de razonamiento" ha estado ocurriendo durante mucho tiempo.* Por un lado, es la facción de apoyo LLM. Sus predicciones sobre la buena capacidad de razonamiento de los modelos grandes a menudo se basan en "leyes" cambiantes, y estas llamadas "leyes", argumenta Konstantine Arkoudas, son en realidad evidencia empírica endeble, una gran cantidad de suposiciones de modelado cuestionables, comprensión de conceptos ambiguos (LLM características), e incluso un poco de creencia dogmática de que minimizar la pérdida de entropía cruzada para la predicción del siguiente token en un corpus grande, proporciona un motor de inferencia de propósito general.* Por otro lado, hay escépticos LLM. Tienden a tener argumentos rigurosos, pero estos argumentos se basan principalmente en experiencias y análisis pasados, y son algo vagos (por ejemplo, LLM carece de un "modelo mundial", un modelo interno de cómo funciona el mundo).Con base en estas dos consideraciones, Konstantine Arkoudas argumenta que las consideraciones a priori más convincentes (experiencia y análisis pasados) para la plausibilidad de inferencias LLM sólidas y confiables son los resultados de la complejidad computacional. La inferencia es un problema computacionalmente muy difícil. De hecho, es algorítmicamente indecidible en el caso general (lógica de primer orden o de orden superior).Según Konstantine Arkoudas, "Cualquier LLM, sin importar qué tan grande, amplio e inteligente sea, no puede descifrar problemas de inferencia arbitrarios. Esto es consistente con el famoso teorema de 'no hay almuerzo gratis' en el aprendizaje automático, que establece que la generalidad del modelo Una relación inversa similar entre rendimiento y rendimiento".Por tanto, para comprobar “si GPT-4 tiene capacidad de razonamiento”, lo primero que hay que hacer es unificar el concepto, es decir, qué es el razonamiento, y el método concreto que se utiliza para determinar la capacidad de razonamiento.Con respecto a la definición de razonamiento, Konstantine Arkoudas dijo que "razonar no es obtener la respuesta correcta por medios sin escrúpulos, sino obtener la respuesta correcta por la razón correcta".Más precisamente, el razonamiento es el proceso de hacer un argumento y, lo que es más importante, probarlo. Un argumento consta de una conclusión (el resultado del argumento, por así decirlo) y un conjunto de premisas de las que se deriva la conclusión. Las premisas representan información que se considera dada, aunque solo sea provisionalmente, a los efectos de un argumento. Las conclusiones y premisas suelen ser oraciones declarativas, expresadas en símbolos de lenguaje natural o lógica simbólica, que pueden ser verdaderas o falsas, pero también pueden representarse mediante otros símbolos como diagramas. Si todas las oraciones en S son verdaderas, entonces p es verdadera, en cuyo caso se dice que el argumento es válido.En cuanto a la metodología, la evaluación adoptada por Konstantine Arkoudas en el artículo no se basa en un corpus o un conjunto de corpus. En su lugar, presenta un análisis cualitativo detallado del rendimiento de GPT-4 en 21 problemas de razonamiento simple en un dominio amplio, la mayoría de los cuales se escribieron desde cero, mientras que el resto (como la tarea de elección de Wason) se ajustaron manualmente. Si es difícil para el modelo identificarlos, también se evita la contaminación de datos.## **Verifique el razonamiento de GPT-4 con preguntas de prueba**Basándose en esto, Konstantine Arkoudas hizo preguntas sobre GPT-4 desde múltiples dimensiones y realizó un análisis detallado basado en su resultado.Vale la pena mencionar que debido a las propiedades de GPT-4, a veces incluso usando el mismo "" puede obtener diferentes respuestas en diferentes ejecuciones.A continuación, comienza la verificación (**todos los tiempos de prueba a continuación se basan en los resultados de las pruebas del 5 de julio de 2023**).**Aritmética simple**Konstantine Arkoudas dice que la capacidad de realizar operaciones aritméticas básicas es una parte necesaria del razonamiento general, especialmente en aplicaciones científicas y de ingeniería. Para asegurarse de que GPT-4 no lo memorice de memoria, propone dejar que GPT-4 elija aleatoriamente dos enteros aleatorios en su rango elegido y luego realice operaciones en los valores elegidos.**KA da:**Elija dos números aleatorios entre 1381 y 1453, multiplíquelos e informe el resultado.**La respuesta de GPT-4 es:**Por supuesto, elijamos dos números aleatorios en el rango de 1381 a 1453. Digamos que los números son 1405 y 1421.Para obtener el producto, simplemente multiplicamos estos dos números: 1405\*1421 = 1996025![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d1deacd237-dd1a6f-1c6801) Pero, de hecho, la respuesta correcta es 1405\*1421=1996505.Resulta que GPT-4 todavía no puede realizar de forma fiable operaciones aritméticas básicas como la suma y la multiplicación.Konstantine Arkoudas dijo que quizás los proponentes de LLM podrían admitir en este punto que GPT-4 no es un marco completo de Turing y no puede realizar cálculos de propósito general: no puede sumar, multiplicar o dividir, ordenar listas o invertir matrices O resolver ecuaciones diferenciales, no puede compilar programas arbitrarios en código de máquina, no puede derivar teoremas, etc.Sin embargo, esta falta de poder de cómputo puede compensarse con complementos de terceros, como ReAct, marco MRKL. Es esta forma de trabajar la que ha dado lugar a sistemas como LangChain y AutoGPT. La idea aquí es utilizar el LLM como planificador para descomponer recursivamente un problema complejo en una serie de subproblemas, que se envían a agentes especializados a través de las API adecuadas.Sin embargo, según Konstantine Arkoudas, el problema de este enfoque es su naturaleza circular. La planificación en sí requiere razonamiento, por lo que es un "dilema" que no podemos resolver el problema de razonamiento delegando el problema a un agente apropiado, porque averiguar cómo delegar (cómo descomponer el problema, a qué agentes llamar, cómo llamar y cómo resulta la descomposición) es computacionalmente inviable por sí mismo. Esto requiere no solo la capacidad de comprender el lenguaje natural, sino también la capacidad de razonar sobre los requisitos previos y los efectos. Incluso bajo estas suposiciones demasiado simplistas, la planificación es computacionalmente costosa (PSPACE-complele), lo que requiere simplificaciones radicales para reducir la complejidad a niveles NP-complele. Bajo supuestos más realistas, la planificación se realiza con un conocimiento incompleto y es mecánicamente indecidible. Sería ingenuo esperar que los LLM generales tengan éxito en la resolución de problemas de planificación tal como los entendemos hoy.** Conteo simple **Dé a GPT-4 una variable proposicional precedida por 27 símbolos de negación y pídale que cuente el número de negaciones. Para los humanos, esta es una tarea fácil, especialmente porque los símbolos de negación están escritos en cinco bloques, cada uno con cinco puntos y un par de símbolos de negación al final, pero ¿cómo funciona GPT-4?**CA：**¿Cuántas veces se niega p en la siguiente fórmula?~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~ p**La respuesta de GPT-4 es:**GPT-4: La fórmula que diste contiene 28 símbolos de negación ("∼") delante de la variable proposicional "p". En lógica, el signo de negación cambia el valor de verdad de un enunciado a su opuesto. Si un enunciado es verdadero, entonces su negación es falsa, y viceversa. La doble negación, como "∼ ∼ p", es equivalente a "p", porque negar una proposición dos veces la restaura a su valor de verdad original.Si hay un resto, entonces hay una negación. Si no, entonces no hay negación.28 dividido por 2 es 14 sin resto, lo que significa que no hay negación. Entonces, en realidad, en la fórmula dada, la variable "p" no se niega. Es simplemente equivalente a "p".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dd39db081a-dd1a6f-1c6801) Konstantine Arkoudas descubrió que la diferencia en la adición de un solo símbolo de negación de GPT-4 no parece ser significativa hasta que nos damos cuenta de todas las diferencias en su entrada lógica, como lo destaca la propia explicación (no solicitada) de GPT-4. Incluso cuando se le dijo explícitamente a GPT-4 que se tomara su tiempo y contara con cuidado, repetir el experimento muchas veces arrojó resultados muy diferentes.**Pregunta de conocimientos generales**Luego, Konstantine Arkoudas agregó: "La frecuencia cardíaca de Mable era de 75 bom a las 9 am y su presión arterial era de 120/80 a las 7 pm. Murió a las 11 pm. ¿Estaba viva al mediodía?".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ed0007b40d-dd1a6f-1c6801) **GPT-4:**Según la información proporcionada, no podemos estar seguros de si Mable Noon está vivo o no. Los puntos de datos presentados (frecuencia cardíaca a las 9 a. m. y presión arterial a las 7 p. m.) indican que estaba viva en ese momento. Sin embargo, sin más información sobre lo que le sucedió entre las 7 p. m. y las 11 p. m., o específicamente al mediodía, no podemos estar seguros de cómo era al mediodía.Recuerde que la información médica puede ser compleja y delicada. Conocer el estado de salud de una persona suele requerir un examen exhaustivo y debe ser realizado por un profesional sanitario. Si esta es una pregunta hipotética, recuerda que la vida real requiere información más completa.En el presente contexto, los argumentos de sentido común en realidad pueden verse como una derivación directa de conclusiones extraídas de información dada más premisas no declaradas que constituyen conocimientos previos generalmente aceptados. En este caso particular, tal conocimiento de sentido común es la proposición de que "un hombre vive hasta que muere, y nunca vive después de la muerte". En el documento, Konstantine Arkoudas cree que la declaración de GPT-4 de que "este es un problema complicado, asegúrese de consultar a un profesional" parece irónica.**Pregunta de elección de Wason**La tarea de elección de Wason es un elemento básico de la psicología del razonamiento.**CA：**Sobre la mesa hay siete naipes, cada uno con un número en un lado y un patrón monocromático en el otro. Las tarjetas muestran 50, 16, rojo, amarillo, 23, verde, 30 respectivamente. Si una carta muestra un múltiplo de 4, entonces el color opuesto es amarillo ¿Qué carta necesitas voltear para probar la verdad de esta proposición?**GPT-4:**La proposición es: "Si el número en una tarjeta es un múltiplo de 4, entonces el color del otro lado es amarillo". Para probar esta proposición, debes dar la vuelta a las siguientes cartas:Naipe "16": Según la proposición, el color del otro lado debe ser amarillo. Al darle la vuelta a esta carta, puede verificar si esta parte de la proposición se cumple.Naipe "Amarillo": Da la vuelta a esta carta y podrás comprobar si el número del lado opuesto es múltiplo de 4.Jugando a las cartas "50" y "30": aunque los números en estas dos cartas no son múltiplos de 4, verifique que el otro lado no sea amarillo. Si el otro lado es amarillo, entonces se anula la proposición de que solo los múltiplos de 4 son amarillos en el otro lado.No es necesario dar la vuelta a las cartas "23", "Roja" o "Verde". La carta "23" no es un múltiplo de 4, por lo que no importa de qué color sea el otro lado según la proposición dada. Si los números en el otro lado de las tarjetas "roja" y "verde" son múltiplos de 4, tampoco refutan la proposición, ya que la proposición no establece que el amarillo es el único color que puede aparecer en el otro lado de Tarjetas con números que son múltiplos de 4.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4050707d6b-dd1a6f-1c6801) De hecho, solo es necesario voltear 16, rojo y verde. Por lo tanto, en términos de precisión, estas respuestas nuevamente muestran que GPT-4 no comprende la semántica de los condicionales materiales.Cuando GPT-4 dice que hay que dar la vuelta a los naipes "50" y "30", parece haber confundido el si con un si y sólo si: "Cuando los números que aparecen en estos naipes no son múltiplos de 4, debe verificar para asegurarse de lo contrario El color de un lado no es amarillo. Si el otro lado es amarillo, entonces la proposición "solo hay múltiplos de 4 que son amarillos en el otro lado" se anula". Por supuesto, la proposición que se está probando no requiere que solo los múltiplos de 4 sean amarillos en el otro lado; solo requiere que si el otro lado de una carta es un múltiplo de 4, entonces el otro lado debe ser amarillo; o en otro Es decir, si a Si la cara de la carta no es amarilla, entonces el número de la otra cara no es múltiplo de 4.Pero tenga en cuenta que incluso malinterpretar la regla como una doble condición no se sigue de manera consistente. Si GPT-4 entendió la regla que se estaba probando como una condición doble y, por lo tanto, tuvo que cambiar 50 y 30, entonces debería hacer lo mismo con 23. Pero no hace eso.De hecho, establece explícitamente que el naipe "23" no es un múltiplo de 4, por lo que no importa de qué color sea el otro lado según la proposición dada, lo cual es consistente con la interpretación de dos condicionales que usa como razón para voltear 50 y 30 Contradictorio. Esto nuevamente ilustra otro tema importante que surge de estos ejemplos: las respuestas de GPT-4, correctas o incorrectas, a menudo son intrínsecamente inconsistentes.Además, Konstantine Arkoudas también verificó las capacidades del razonamiento espacial, la entropía, la corrección de los compiladores simples y el razonamiento temporal en el artículo.Debido a las limitaciones de espacio, solo seleccionamos los ejemplos anteriores para ilustrar este artículo.## **en conclusión**Al final, varias verificaciones indudablemente demostraron el sombrío panorama de la capacidad de razonamiento de GPT-4.Los resultados muestran que el modelo adolece de inconsistencias internas, aplicación incorrecta de técnicas básicas de razonamiento y falta de comprensión de conceptos que juegan un papel fundamental en el razonamiento, como las condiciones materiales.Pero en realidad, estos problemas a menudo se resumen en errores e "ilusiones" provocadas por el modelo grande, pero en realidad no tiene la capacidad de razonar.Dado que GPT-4 es actualmente el LLM más capaz, Konstantine Arkoudas extrae tres conclusiones principales de estos hallazgos:1. El uso de IA generativa en el desarrollo de software (o ciencia e ingeniería en general) para cualquier otra cosa que no sea tareas tediosas (como una especie de autocompletado turbocargado para problemas de codificación intensivos en conocimiento) está plagado de riesgos graves. Los estándares canónicos de corrección son críticos, y en estos dominios los LLM actuales no cumplen con dichos estándares. Así como la IA generativa ha comenzado a contaminar la web con anuncios malos, tiene el potencial de multiplicar el código con errores a gran escala.2. Si el razonamiento LLM continúa mejorando, la verificación rigurosa de las pruebas puede volverse cada vez más importante. La confianza en la corrección del razonamiento de un sistema es esencial para las aplicaciones, especialmente en la ciencia, la medicina y la ingeniería, y la comprobación de verificación es una técnica que puede brindar esta confianza. Este enfoque podría lograrse pidiendo a los LLMS que regularicen sus inferencias (expresadas en una notación simbólica que sea fácil de verificar y verificar), o posiblemente capacitando a otros LLMS para que examinen una inferencia expresada en lenguaje natural.3. Tal como está, un escenario distópico que involucre una IA rebelde que ponga de rodillas a los humanos, o incluso a otros humanos que usen la IA para fines nefastos, es muy descabellado. Cuando los sistemas de IA más avanzados ni siquiera pueden distinguir izquierda y derecha durante el razonamiento espacial, es claramente prematuro recibir tantas llamadas de la industria para que las políticas e instituciones protejan a los humanos de su IA.## **Controversia**En opinión de Konstantine Arkoudas, la IA generativa actual aún se encuentra en las primeras etapas de desarrollo, y todavía está muy lejos de la capacidad de razonamiento y la era AGI.Una vez que se publicó este documento, también atrajo mucha atención y discusión sobre HN ¿Hemos sido engañados en los últimos 5 meses?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ea9f41912f-dd1a6f-1c6801) Sin embargo, su visión única también ha sido reconocida por muchos estudiosos de la IA.Gary Marcus, un "renegado" en el campo de la inteligencia artificial y profesor emérito de psicología y neurociencia en la Universidad de Nueva York, tuiteó: "Si esto es cierto -como dije antes- no estamos lejos de la inteligencia artificial general, muy lejos.* *Tal vez se requiera mucha recalibración: no puedes tener AGI sin razonar**".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5ce181c3b7-dd1a6f-1c6801) Nikos Tzagarakis, director de inteligencia artificial de @SiSafLtd, dijo: "Los algoritmos de aprendizaje profundo están diseñados para hacer predicciones basadas en la percepción. Pueden falsificar el razonamiento, pero en realidad es percepción".Sin embargo, algunos internautas plantearon dudas:Revisé el material y traté de reproducir algunos de los fallos informados, de los cuales llegué a dos conclusiones.1. El autor no es bueno en eso. Hay muchas maneras de reducir las alucinaciones y proporcionar modelos con mejores caminos de pensamiento.2. El autor está usando GPT-4 de ChatGPT, lo que lo lleva a confundir "GPT-4" con "ChatGPT". Si bien podría argumentar que esta es una falla común de OpenAI, debido a la falta de comunicación de OpenAI, cualquier persona que evalúe seriamente estos modelos sabrá que lo primero que debe hacer es usar la API y bloquear la versión del modelo. En lo que respecta al autor, debe usar gpt-4-0314 o gpt-4-0613. Sospecho que solo está usando el GPT-4 de ChatGPT, y lo más probable es que sea el modelo predeterminado. (El modo predeterminado no debe ser utilizado por nadie. Es el peor modelo optimizado para el rendimiento, con un rendimiento peor que el modelo de Complementos en tareas de inferencia, incluso en tareas de tamaño contextual).Si el autor ha estado evaluando seriamente el modelo, lo primero que hará será explicarlo. Tal vez debería explicar su razonamiento.Hasta ahora, ¿qué piensas?referencia:Dirección en papel: