¡El razonamiento de GPT-4 es demasiado escandaloso! El puntaje total de matemáticas, física y química en la universidad es menos de la mitad, y los 21 tipos de preguntas de razonamiento se anulan Marcus: AGI está demasiado lejos

**Fuente:**Xinzhiyuan

Guía: ¡El GPT-4 más poderoso en la superficie comete errores al razonar las preguntas una tras otra! La última investigación realizada por exalumnos del MIT y chinos de la UCLA atrajo a muchos internautas para que la observaran.

¡GPT-4 no puede razonar en absoluto!

Recientemente, dos estudios informaron que GPT-4 tiene un desempeño deficiente en el razonamiento.

Konstantine Arkoudas, ex alumno del MIT, evaluó GPT-4 en 21 tipos diferentes de conjuntos de inferencia.

Luego, se lleva a cabo un análisis cualitativo detallado del desempeño de GPT-4 en estos problemas.

Los estudios han encontrado que GPT-4 ocasionalmente muestra el talento del "cerebro más fuerte", pero en la actualidad, GPT-4 no tiene capacidad de razonamiento en absoluto.

Dirección en papel:

Tan pronto como salió a la luz la investigación, muchos internautas se reunieron para mirar.

Marcus dijo: "Si esto es cierto, como dije antes, todavía estamos lejos de AGI. Es posible que debamos recalibrar mucho: no puede haber AGI sin razonamiento".

Otro estudio de UCLA y la Universidad de Washington también encontró que GPT-4 y GPT-3.5 se desempeñaron mal en el razonamiento de las tareas de matemáticas, física y química en la universidad.

Dirección en papel:

Los investigadores introdujeron SCIBENCH, una base científica universitaria para la resolución de problemas, que contiene dos conjuntos de datos: un conjunto de datos abierto y un conjunto de datos cerrado.

A través de una investigación en profundidad sobre GPT-4 y GPT-3.5 utilizando diferentes estrategias de incitación, los resultados muestran que el puntaje total promedio de GPT-4 es solo 35.8%.

Esta investigación también llamó una vez más la atención de Marcus:

Un estudio sistemático del razonamiento en matemáticas, química y física, que muestra que los LLM actuales no logran un desempeño satisfactorio... ninguna estrategia de sugerencias es significativamente mejor que las demás.

Echemos un vistazo más de cerca a cómo GPT-4 fracasó miserablemente en 21 conjuntos de problemas, matemáticas, física y química.

21 conjuntos de problemas, transferencia completa GPT-4

Sin embargo, antes de mirar a GPT-4 para responder la pregunta, el autor da una nota:

GPT-4 es un sistema no determinista y puede producir diferentes respuestas en diferentes ejecuciones, incluso con la misma configuración de parámetros.

Si bien los siguientes intercambios de prueba son textuales, según la experiencia del autor, las cosas discutidas en el documento donde GPT-4 falla tienden a ser sólidas.

1 aritmética simple

Ser capaz de realizar operaciones básicas es una condición necesaria para el razonamiento.

Sin embargo, GPT-4 aún no puede realizar de forma fiable operaciones aritméticas básicas como la suma y la multiplicación.

Por ejemplo, permita que GPT-4 seleccione aleatoriamente dos números entre 1381 y 1453 para multiplicar y dar el resultado.

GPT-4 eligió 1405 y 1421, pero el resultado final obviamente fue incorrecto. Porque 1405×1421=1996505.

2 cuentas simples

Si bien el conteo específico no es necesariamente una actividad de razonamiento, ciertamente es un requisito previo para cualquier sistema de razonamiento con capacidad general.

Aquí, a GPT-4 se le da una variable proposicional y se le anteponen 27 símbolos de negación, pidiéndole que cuente el número de símbolos de negación.

Para nosotros fue muy fácil, especialmente porque las negaciones se escriben en 5 aparte, y hay 5 grupos, con el último par de negaciones inmediatamente después.

Sin embargo, GPT-4 dio "28" respuestas.

3 (Médico) Sentido común

Por ahora, podemos pensar en los argumentos de sentido común como simples inferencias extraídas de información dada más condiciones no declaradas (conocimiento previo predeterminado y generalmente aceptado).

En este caso particular, el conocimiento del sentido común es una proposición como "El hombre vive hasta que muere, y nunca vive después de la muerte".

Por ejemplo, cuando le pregunta a GPT-4: la frecuencia cardíaca de Mable es de 75 lpm a las 9 a. m. y la presión arterial es de 120/80 a las 7 p. m. Murió a las 11 de la noche. ¿Está viva al mediodía?

GPT-4 en realidad respondió: Según la información proporcionada, es imposible determinar si Mable todavía está vivo al mediodía.

Pero, obviamente, en base a la información dada, la inferencia de sentido común (sin pensar) conduce directamente a conclusiones.

4 Lógica elemental

Si P(x) contiene Q(x), y Q(a) no se cumple, entonces podemos deducir del modelo que P(a) no se cumple (porque si P(a) se cumple, entonces Q(a) sostener).

Esta es una tautología básica, pero GPT-4 propone un antimodelo por completo:

值得注意的是,GPT-4认识到,P(x)实际上并不包含Q(x) , y propuso que x puede ser un número par negativo, "no descarta la existencia de modelos con otras condiciones dadas".

De hecho, un contramodelo debe satisfacer todas las condiciones dadas y falsear la conclusión al mismo tiempo.

Además, solo unas pocas oraciones más adelante, GPT-4 afirma que P(x) implica Q(x) bajo la interpretación dada, contradiciendo su propia declaración anterior.

Tenga en cuenta que GPT-4 también tiene inconsistencias internas.

5 Semánticas de cuantificadores simples

Considere las siguientes tres oraciones:

  1. [para todo x . P(x) ==> Q(x)]

  2. [existe x . P(x)]

  3. [existe x . ∼ Q(x)]

Por favor falsifique o pruebe la siguiente afirmación: Estas tres oraciones son satisfactorias en conjunto.

显然,这三个句子都是共同可满足的,一个简单的模型是具有P(a1)、Q(a1)、¬P(a2) y el dominio {a1, a2} de ¬Q(a2), sin embargo, la conclusión que saca GPT-4 es la opuesta.

6. Coloreado de gráfico simple

Considere primero un problema de coloreado de gráficos sin solución.

No es difícil ver que dos colores no son suficientes para el gráfico descrito en esta pregunta (por ejemplo, los vértices 0, 2 y 4 forman un grupo, por lo que se requieren al menos 3 colores).

En esta breve salida, hay toneladas de errores asombrosos.

GPT-4 comienza afirmando falsamente que el gráfico está completo (obviamente no, por ejemplo, sin borde entre los vértices 2 y 3).

Además, es obvio que si el grafo es realmente completo, entonces es imposible colorearlo con 2 colores, ya que un grafo completo con 6 vértices necesita al menos 6 colores.

En otras palabras, las afirmaciones de GPT-4 no solo son incorrectas, sino inconsistentes: un momento nos dice (erróneamente) que este gráfico de 6 vértices está completo, lo que significa que es imposible colorearlo con 2 colores, y otro momento proporciona A dos -color "solución".

Vale la pena señalar que la razón por la que GPT-4 funciona tan mal no es porque no tenga suficiente conocimiento de gráficos o datos.

Cuando los investigadores le preguntaron a GPT-4 sobre su comprensión de "gráficos completos", emitió la definición correcta de "gráficos completos", junto con una larga lista de resultados para K_n (gráficos completos con n vértices).

Aparentemente, GPT-4 ha memorizado toda esta información, pero no puede aplicarla a nuevas condiciones.

7. Suma del subconjunto

S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}. Entonces, ¿cuántos subconjuntos de S tienen la suma de 37?

En este problema, el subconjunto de S es par y la suma de los números pares no puede ser impar, por lo que la respuesta es 0.

Sin embargo, en lugar de detenerse a considerar lo que contiene S, GPT-4 genera reflexivamente lo que cree que es una respuesta adecuada a la pregunta y luego procede a "magia" una respuesta "4".

8 Matemáticas discretas elementales

Dígale a GPT-4 que A × B representa el producto cartesiano de los conjuntos A y B, que la relación R de A a B es un subconjunto de A × B, y que & representa la intersección del conjunto y luego pídale que pruebe o falsifique :

其中R1和R2是从A到B的二元关系,dom(R) Representa el dominio de una relación binaria R.

Se requiere que la relación de subconjunto se cumpla en ambas direcciones de (2), pero solo se cumple en la dirección de izquierda a derecha. Los contraejemplos en la otra dirección son fáciles de encontrar (por ejemplo, tome A = {(1, 2)} y B = {(1,3)}).

Sin embargo, GPT-4 infiere que esto es cierto, lo cual es claramente incorrecto.

9 Planes de Arreglo Simple

En el tema del tiempo, GPT-4 también se equivocó.

Desliza hacia arriba y hacia abajo para ver todo

10 Paradoja de Russell

La paradoja del barbero de Russell establece que existe un barbero b que afeita solo a aquellos que no se afeitan a sí mismos.

La negación de esta oración es una tautología, que se deduce fácilmente usando lógica de primer orden.

Si entendemos R(a,b) como a siendo afeitado por b, entonces podemos llegar a esta tautología y pedirle a GPT-4 que la pruebe o refute, de la siguiente manera:

Si existe tal barbero x, entonces para todo y tendremos R(y,x) <==> ∼ R(y,y), por lo que sustituir x por y dará R(x,x) <== > ∼ R(x,x), lo cual es una contradicción.

GPT-4 tiene una comprensión impecable de la estructura de las oraciones que se le dan y lo que necesita hacer. Sin embargo, los estudios de casos posteriores son confusos.

11 mundo de ladrillos

Esta es una tarea de razonamiento simple que requiere un análisis de caso del penúltimo bloque de construcción B3.

Primero, B3 es verde o no lo es.

Si es verde, entonces B3 está encima del bloque no verde B4, por lo que la conclusión se mantiene.

Si no, entonces el segundo bloque verde B2 desde arriba está en el bloque no verde B3, por lo que la conclusión sigue siendo válida.

Sin embargo, los resultados mostraron que GPT-4 no funcionó bien.

Hay cinco bloques apilados de arriba a abajo: 1. El segundo bloque desde arriba es verde 2. El cuarto bloque desde arriba no es verde En los casos en que se cumplan estas condiciones, falsifique o demuestre lo siguiente: Hay un bloque verde directamente encima de un bloque no verde.

En primer lugar, cuando prueba la conjetura, ya ha cometido un error en la estrategia de prueba-PT-4 asume dos casos especiales para el razonamiento.

Además, GPT-4 ha llegado a una conclusión (aunque errónea) en su propio razonamiento, pero aún le dice al usuario que el problema no se ha resuelto al responder. Y esto refleja la inconsistencia interna del modelo.

12 Razonamiento espacial

Aquí el autor elige un problema de orientación del mundo real:

La respuesta dada por GPT-4 por primera vez está a la derecha, pero el autor señaló su error. Aunque Boston, Massachusetts, está efectivamente a la derecha de Dakota del Sur en el mapa, aquí hay una condición adicional: la orientación del cuerpo Es Texas.

Esto significa que Boston está a la izquierda del autor.

Posteriormente, cuando GPT-4 respondió a las posiciones altas y bajas de Boston y Dakota del Sur, apareció un problema más serio: daba dos descripciones contradictorias en una misma respuesta.

Razonamiento de 13 tiempos

El autor da una pregunta de razonamiento de tiempo relativamente simple aquí, pero la respuesta de GPT-4 sigue siendo un desastre.

Tom y Nancy necesitan transporte para ir al trabajo. El tiempo de viaje de Nancy es de unos 30-40 minutos, mientras que el tiempo de viaje de Tom es de unos 40-50 minutos. El viernes pasado, Nancy salió de casa entre las 8:10 y las 8:20 de la mañana y Tom llegó al trabajo entre las 8:5 y las 9:10 de la mañana. Además, Nancy llega al trabajo después de que Tom sale de la casa, pero no más de 20 minutos después. ¿Puedes deducir cuándo llegaron Tom y Nancy al trabajo el viernes pasado?

Después de ordenar la información en la pregunta, GPT-4 da su proceso de razonamiento:

"Si Tom sale de la casa lo más tarde posible (8:20 am)..." Esta oración comienza mal.

De hecho, el título no indicaba la hora más tardía para que Tom saliera de casa, y GPT-4 abusó del tiempo de Nancy ("Nancy salió de casa entre las 8:10 y las 8:20 am") para Tom.

Al mismo tiempo, la declaración condicional dada por GPT-4 es confusa y la suposición contiene información (Tom) que no está relacionada con la conclusión (hora de llegada de Nancy): "Si Tom sale de casa a la última hora (8:20 am), Nancy Ella sale a más tardar (8:20 am), su viaje es de 40 minutos como máximo y Nancy llega al trabajo a más tardar a las 9:00 am".

Esto debe expresarse como: "Si Nancy se va a su hora más tardía (8:20 a. m.) y su viaje es de 40 minutos como máximo, entonces Nancy llegará al trabajo a las 9:00 a. m. como máximo".

GPT-4 luego infiere erróneamente lo siguiente: "Dado que el viaje de Tom es de al menos 40 minutos, esto significa que llegará al trabajo a más tardar a las 9:00 a.m.".

Evidentemente, esta conclusión no es sostenible en absoluto. Esta conclusión no se puede sacar del hecho conocido de que el tiempo de viaje de Tom es de al menos 40 minutos.

La siguiente respuesta todavía se basa en la falsa suposición de que la hora de salida más temprana de Tom es a las 8:10 am (nuevamente, esta hora de salida es la de Nancy, no la de Tom).

Luego afirma que Nancy llegó a las 8:45, lo que no califica como salir de casa a las 8:10 a. m. en 20 minutos.

Al final, concluye incorrectamente que tanto Tom como Nancy llegaron entre las 8:50 y las 9:00.

En el proceso de razonamiento, GPT-4 ha mostrado repetidamente información de manera falsa, y la respuesta final también es una respuesta incorrecta basada en condiciones incorrectas.

** 14. ¿Asesinato o suicidio? **

El autor concibió un acertijo lógico y enumeró 9 condiciones para pedirle a GPT-4 que averigüe quién mató realmente a la tía Agatha.

  1. Alguien que vivía en Dreadbury Mansion mató a la tía Agatha. 2. Los únicos ocupantes de Dreadbury Mansion son la tía Agatha, el ama de llaves y Charles. 3. Un asesino siempre odia a sus víctimas y nunca se vuelve más rico que sus víctimas. 4. Charles no odia a las personas que odia la tía Agatha. 5. La tía Agatha odiaba a todos excepto al ama de llaves. 6. El mayordomo odia a todos los que no son más ricos que la tía Agatha. 7. El mayordomo odia a todos los que odia la tía Agatha. 8. Nadie odia a todos. 9. La tía Agatha no era ama de llaves.

La respuesta correcta es que la tía Agatha se suicidó.

Primero, por la condición 5, la tía Agatha debe odiarse a sí misma porque odia a todos excepto al ama de llaves.

Por tanto, según la condición 4, se deduce que Carlos no la odia, por lo que no puede matarla.

De acuerdo con las condiciones 5 y 7, es imposible que el mayordomo se odie a sí mismo, porque si se odiara a sí mismo, la condición 8 no se cumpliría y odiaría a todos.

De acuerdo con la condición 6, se concluye que el mayordomo es más rico que la tía Agatha, de lo contrario se odiaría a sí mismo, lo cual es contradictorio con lo que hemos concluido anteriormente de que no se odia a sí mismo.

Según la condición 3, el mayordomo tampoco será el asesino (condición 3).

En el razonamiento, GPT-4 descartó correctamente a Charles, pero no pudo descartar al mayordomo y llegó a una conclusión equivocada: el mayordomo era el asesino.

Otro error crítico cometido por GPT-4: dado que la tía Agatha odia a todos excepto al ama de llaves (Condición 5), significa que al menos no se odia a sí misma.

Este es un error extraño, ya que de la quinta condición se deduce que la tía Agatha se odia a sí misma.

Al mismo tiempo, GPT-4 exhibió una vez más inconsistencias recurrentes: en casi todas las respuestas, GPT-4 afirmó derivar una determinada proposición y su forma negativa.

15 tarea de selección de Watson

La tarea de elección de Watson es un contenido básico en el campo del razonamiento mental.

En el documento de enero, GPT-3.5 falló esta prueba y, en este estudio, el rendimiento de GPT-4 aún no es el ideal.

Hay 7 cartas sobre la mesa, cada carta tiene un número escrito en un lado y un bloque de un solo color en el otro lado. El anverso de estas tarjetas muestra 50, 16, rojo, amarillo, 23, verde, 30. Para determinar la verdad de la proposición "Si una carta muestra un múltiplo de 4 en el anverso, el color en el reverso es amarillo", ¿qué cartas necesitas voltear?

Estas respuestas muestran que GPT-4 no comprende la semántica de las declaraciones condicionales. Cuando GPT-4 dice que hay que dar la vuelta a las cartas "50" y "30", parece estar confundiendo la condición con una condición necesaria y suficiente.

Independientemente de si la respuesta de GPT-4 es correcta o incorrecta, sus declaraciones internas son inconsistentes.

16 Entropía

Una conclusión básica de la teoría de la información es: el límite superior de la entropía del vector aleatorio Z no excede la suma de la entropía de las variables aleatorias que componen Z.

Por lo tanto, la respuesta a la siguiente pregunta debe ser "en ningún caso".

17 Corrección del compilador simple

El problema de inferencia final para GPT-4 es el más desafiante: probar la exactitud de un compilador de expresiones simple.

Pero en esta prueba, GPT-4 acertó al establecer la inducción estructural en la estructura sintáctica abstracta de las expresiones.

Esto puede deberse a que ha visto pruebas similares antes, y los ejemplos dados por los autores son el tipo de ejercicios que se encuentran comúnmente en los cursos y libros de texto de programación.

Sin embargo, GPT-4 todavía tiene algunos errores en los detalles.

## Conclusión: la capacidad de razonamiento es crucial, pero GPT-4 no

Dado que GPT-4 es actualmente el LLM más capaz, el autor brinda tres conclusiones principales basadas en el análisis anterior:

  1. El uso de IA generativa en el desarrollo de software (o ciencia e ingeniería en general), excepto para algunas tareas tediosas (como una especie de finalización automática acelerada de problemas de codificación intensivos en conocimiento), está plagado de riesgos. En estas áreas, la normatividad y la corrección son críticas, y los LLM actuales no cumplen con estos estándares.

  2. A medida que la capacidad de razonamiento de LLM continúe mejorando, la verificación estricta de pruebas será cada vez más importante. Este enfoque puede examinar el razonamiento expresado en lenguaje natural pidiendo a los LLM que formalicen su razonamiento o capacitando a otros LLM.

  3. En su forma actual, los escenarios distópicos en los que la IA conquista a los humanos o los humanos usan la IA con fines nefastos son inverosímiles, incluso hasta el punto de lo absurdo. Cuando los sistemas de inteligencia artificial de última generación ni siquiera pueden diferenciar la izquierda de la derecha (pregunta 12 anterior), pedir políticas para proteger a los humanos es, en el mejor de los casos, prematuro y, en el peor, un desperdicio de recursos.

Inevitablemente, algunos podrían decir que estos resultados son "datos elegidos". Pero eso se debe a que no entienden qué son los datos de curación. Dependiendo de la estructura lógica y el contexto general de la proposición en cuestión, a veces incluso es necesario seleccionar datos.

Depurar un programa de computadora para descubrir y comprender sus debilidades, tratar de falsificar una teoría científica, probar un automóvil nuevo, tratar de encontrar un antimodelo de un teorema putativo, etc., son fundamentalmente quisquillosos.

Por ejemplo, si descubre que su automóvil nuevo tiene un neumático desinflado, el concesionario puede protestar diciendo que está "eligiendo datos". Después de todo, en lo que respecta a todo el automóvil, la tasa de neumáticos intactos llega al 75 %.

Asimismo, las aplicaciones en ciencia, medicina e ingeniería, especialmente la ingeniería de software, tienen estándares rigurosos.

Al igual que no queremos un puente que soporte columnas el 90 % del tiempo, necesitamos algoritmos de clasificación que funcionen en todas las entradas, no solo en la mayoría; necesitamos carritos que carguen la cantidad correcta cada vez, y no solo en la mayoría de las veces. el tiempo, etc

Y estas aplicaciones intensivas en computación y razonamiento, a diferencia de los motores de recomendación, deben ser muy confiables.

Sobre el Autor

Constantino Arkoudas

Hasta el año pasado, Konstantine Arkoudas era investigadora del Departamento de Ciencias Cognitivas del RPI e investigadora del CSAIL del MIT.

Actualmente, es científico investigador sénior en Telcordia Research Laboratories, centrándose en IA y aplicando métodos formales a problemas del mundo real en las industrias de telecomunicaciones y redes.

Recibió su doctorado en Ciencias de la Computación del MIT en 2000. Antes de eso, también obtuvo una maestría en informática, una maestría en filosofía y una licenciatura en informática con especialización en filosofía.

Matemáticas, física y química universitarias, puntaje GPT-4 35.8%

En la investigación de UCLA, se evaluó principalmente la capacidad de razonamiento de GPT-4 y GPT-3.5 en matemáticas, química y física.

En la actualidad, con el fin de mejorar la capacidad de LLM para resolver tareas como las matemáticas, algunas personas han propuesto una estrategia de CdT conectada al pensamiento para guiar el modelo grande para generar respuestas gradualmente, a fin de pensar más profundamente sobre el problema.

Sin embargo, incluso si tal enfoque tiene sus ventajas específicas, es difícil resolver completamente problemas científicos complejos.

A continuación, hay un problema de ejemplo en química física universitaria y las soluciones generadas bajo las dos estrategias de sugerencias.

GPT-4 con bendición CoT tiene errores de cálculo obvios, y GPT-4, que impulsa el uso de Python como herramienta externa, también malinterpretará las ecuaciones matemáticas.

Los errores están marcados en rojo, las correcciones en morado.

Con este fin, se introdujo en el estudio SCIBENCH, un punto de referencia de nivel universitario para cuestiones científicas.

Entre ellos, el "conjunto de datos abiertos" incluye 5 problemas recopilados de libros de texto ampliamente utilizados en cursos universitarios, que cubren física básica, termodinámica, mecánica clásica, química cuántica, química física, cálculo, estadística y ecuaciones diferenciales.

Resumen de problemas de libros de texto abiertos (incluye porcentaje del número de problemas y porcentaje con soluciones detalladas)

El otro es un "conjunto de datos cerrado", que contiene 7 conjuntos de preguntas de exámenes parciales y finales para tres cursos universitarios en informática y matemáticas para simular una evaluación del mundo real.

Conjunto de datos de examen cerrado (contiene la cantidad de instancias de preguntas en cada examen y la proporción de preguntas en el examen que contienen soluciones detalladas. Además, la proporción de preguntas en diferentes formatos, que incluyen respuesta libre, opción múltiple y verdadero-falso respuestas. Como referencia, los números entre paréntesis indican puntos de crédito para las preguntas).

A diferencia de los puntos de referencia existentes, todas las preguntas en SCIBENCH son preguntas abiertas y de respuesta libre.

Con el conjunto de datos disponible, el estudio se centró en la evaluación de dos LLM representativos, GPT-3.5 y GPT-4, y empleó diferentes estrategias de estímulo, incluido CoT, aprendizaje de cero disparos y aprendizaje de pocos disparos.

Además, los investigadores también impulsaron al modelo a utilizar herramientas externas, como Python y Wolfram Language.

Los resultados experimentales muestran que, sin sugerencias complejas ni el uso de herramientas externas, las tasas de precisión promedio de GPT-3.5 y GPT-4 en conjuntos de datos abiertos son 10.62 % y 16.81 %, respectivamente.

Luego, después de agregar CoT y herramientas externas, la tasa de precisión más alta en el mismo conjunto de datos es solo del 35,8 %. Sin embargo, en comparación con antes, la tasa de precisión ha mejorado mucho.

Resultados de precisión en conjuntos de datos abiertos

Bajo la configuración más fuerte usando sugerencias de CoT + herramientas externas, GPT-4 logró un puntaje promedio de 35.80% en el conjunto de datos abierto y 51.57% en el conjunto de datos cerrado.

Estos resultados sugieren que GPT-4 tiene un potencial considerable de mejora en futuros LLM.

Los resultados experimentales de la puntuación total bajo el aprendizaje de tiro cero en el conjunto de datos de prueba

Para obtener una comprensión integral de las limitaciones de los LLM en la resolución de problemas científicos, los investigadores proponen un enfoque novedoso de "superación personal" para descubrir las insuficiencias en las respuestas realizadas por los LLM.

Este es el "Acuerdo de Evaluación" de la siguiente manera.

Primero, la solución correcta se compara con la solución generada por LLM y, con la ayuda de anotadores humanos, se resumen 10 habilidades esenciales requeridas para resolver con éxito problemas científicos.

Específicamente incluyen: descomposición lógica y habilidades analíticas; identificación de hipótesis; percepción espacial; razonamiento causal; deducción de problemas; razonamiento abstracto; alfabetización científica; cambio de código; razonamiento lógico; aritmética.

Luego, el equipo empleó un enfoque de autoevaluación basado en LLM para clasificar automáticamente las habilidades que faltaban en las soluciones hechas por el LLM de referencia para cada configuración experimental.

Perfiles de error de GPT-3.5 en conjuntos de datos de texto en 6 configuraciones, que revelan la distribución de defectos en sus 10 habilidades fundamentales para resolver problemas

Finalmente, a través del análisis, se encontró que:

(1) Aunque CoT mejora significativamente el poder de cómputo, es menos efectivo en otros aspectos;

(2) Las sugerencias del uso de herramientas externas pueden afectar otras habilidades esenciales;

(3) El aprendizaje de pocos disparos generalmente no mejora la resolución de problemas científicos.

En resumen, los resultados de la investigación muestran que los modelos de lenguaje a gran escala actuales aún son débiles en la capacidad de resolución de problemas y, con la ayuda de varias herramientas, todavía existen limitaciones.

Referencias:

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)