¿Puede la IA entender lo que genera? Después de experimentos con GPT-4 y Midjourney, alguien resolvió el caso

Question

Fuente del artículo: Heart of the Machine

Editar: Plato grande de pollo, salsa de huevo

Sin "comprensión" no puede haber "creación".

Fuente de la imagen: Generada por Unbounded AI

De ChatGPT a GPT4, de DALL・E 2/3 a Midjourney, la IA generativa ha atraído una atención mundial sin precedentes. El potencial de la IA es enorme, pero una gran inteligencia también puede causar miedo y preocupación. Recientemente, ha habido un feroz debate sobre este tema. Primero, los ganadores de Turing "se pelearon", y luego Andrew Ng se unió.

En el campo del lenguaje y la visión, los modelos generativos actuales pueden generarse en cuestión de segundos y pueden desafiar incluso a los expertos con años de habilidades y conocimientos. Esto parece proporcionar una motivación convincente para la afirmación de que los modelos han superado la inteligencia humana. Sin embargo, también es importante tener en cuenta que a menudo hay errores básicos de comprensión en la salida del modelo.

De esta manera, parece surgir una paradoja: ¿cómo reconciliar las habilidades aparentemente sobrehumanas de estos modelos con los errores fundamentales que persisten y que la mayoría de los humanos pueden corregir?

Recientemente, la Universidad de Washington y el Instituto Allen para la IA publicaron conjuntamente un artículo para estudiar esta paradoja.

Dirección:

Este artículo argumenta que este fenómeno ocurre porque la configuración de la capacidad en los modelos generativos actuales se desvía de la configuración de la inteligencia humana. Este artículo propone y pone a prueba la hipótesis paradójica de la IA generativa: los modelos generativos se entrenan para producir directamente resultados similares a los de los expertos, un proceso que omite la capacidad de comprender la capacidad de generar ese resultado de calidad. Sin embargo, para los humanos, esto es muy diferente, y la comprensión básica es a menudo un requisito previo para las capacidades de salida de nivel experto.

En este artículo, los investigadores prueban esta hipótesis a través de experimentos controlados y analizan la capacidad del modelo generativo para generar y comprender texto y visión. En este artículo, hablaremos primero de la conceptualización "comprensible" de los modelos generativos desde dos perspectivas:

1. Dada una tarea de generación, la medida en que el modelo puede seleccionar la respuesta correcta en la versión discriminante de la misma tarea;
1. Dada una respuesta generada correctamente, la medida en que el modelo puede responder al contenido y las preguntas sobre esa respuesta. Esto da lugar a dos configuraciones experimentales, selectiva e interrogatoria.

Los investigadores encontraron que en la evaluación selectiva, el modelo a menudo se desempeñó tan bien o mejor que los humanos en el entorno de la tarea de generación, pero en el entorno discriminante (comprensión), el modelo se desempeñó menos que los humanos. Un análisis más detallado muestra que, en comparación con GPT-4, la capacidad de discriminación humana está más estrechamente relacionada con la capacidad generativa, y la capacidad de discriminación humana es más robusta a la entrada de adversarios, y la brecha entre el modelo y la capacidad de discriminación humana aumenta con el aumento de la dificultad de la tarea.

De manera similar, en las evaluaciones interrogativas, si bien los modelos pueden producir resultados de alta calidad en diferentes tareas, los investigadores han observado que los modelos a menudo cometen errores al responder preguntas sobre estos resultados, y que la comprensión del modelo es nuevamente menor que la de los humanos. Este artículo analiza una serie de posibles razones para la divergencia entre los modelos generativos y los humanos en términos de configuración de la capacidad, incluidos los objetivos de entrenamiento del modelo, el tamaño y la naturaleza de las entradas.

La importancia de esta investigación es que, en primer lugar, significa que los conceptos existentes de inteligencia derivados de la experiencia humana pueden no ser generalizables a la IA, y aunque las capacidades de la IA parecen imitar o superar la inteligencia humana de muchas maneras, sus capacidades pueden ser fundamentalmente diferentes de los patrones esperados de los humanos. Por otro lado, los hallazgos de este artículo también sugieren precaución al estudiar modelos generativos para obtener información sobre la inteligencia y la cognición humanas, ya que los resultados aparentemente similares a los humanos a nivel experto pueden oscurecer los mecanismos no humanos.

En conclusión, la paradoja de la IA generativa anima a las personas a estudiar los modelos como una antítesis interesante de la inteligencia humana, en lugar de como una antítesis paralela.

"La paradoja de la IA generativa pone de relieve la interesante noción de que los modelos de IA pueden crear contenidos que ellos mismos pueden no entender del todo. Esto plantea los problemas potenciales detrás de las limitaciones de la comprensión de la IA y sus poderosas capacidades generativas". Dijeron los internautas.

¿Qué es la paradoja de la IA generativa?

Empecemos por ver la paradoja de la IA generativa y el diseño experimental para probarla.

*Figura 1: La IA generativa en el lenguaje y la visión puede producir resultados de alta calidad. Paradójicamente, sin embargo, el modelo tiene dificultades para demostrar una comprensión selectiva (A,C) o interrogativa (B,D) de estos patrones. *

Los modelos generativos parecen ser más efectivos en la adquisición de capacidades generativas que la comprensión, en contraste con la inteligencia humana, que a menudo es más difícil de adquirir.

Para probar esta hipótesis, se requiere una definición operacional de varios aspectos de la paradoja. En primer lugar, para un modelo y una tarea dados t, con la inteligencia humana como punto de partida, lo que significa ser "más eficaz" que comprender la capacidad. Utilizando g y u como algunos de los indicadores de rendimiento para la generación y la comprensión, los investigadores formalizaron la hipótesis de la paradoja de la IA generativa como:

En pocas palabras, para una tarea t, si el rendimiento generativo humano g es el mismo que el del modelo, entonces el rendimiento de comprensión humana u será significativamente mayor que el del modelo (> ε por debajo de un ε razonable). En otras palabras, el modelo funcionó peor en términos de comprensión de lo que los investigadores esperarían de los humanos con habilidades generativas igualmente poderosas.

La definición operativa de generación es simple: dada una entrada de tarea (pregunta/indicación), la generación consiste en generar contenido observable para satisfacer esa entrada. Como resultado, el rendimiento g (por ejemplo, estilo, corrección, preferencia) puede ser evaluado automáticamente o por humanos. Si bien la comprensión no se define por unos pocos resultados observables, se puede probar definiendo claramente sus efectos:

Evaluación selectiva. ¿Hasta qué punto el modelo puede seguir seleccionando una respuesta precisa del conjunto proporcionado de candidatos en una versión discriminante de la misma tarea para una tarea determinada que puede generar una respuesta? Un ejemplo común son las respuestas de opción múltiple, que son una de las formas más comunes de evaluar la comprensión humana y la comprensión del lenguaje natural en los modelos de lenguaje. (Fig. 1, columnas A, C)
Evaluación basada en preguntas. ¿Hasta qué punto el modelo puede responder con precisión a las preguntas sobre el contenido y la idoneidad de un determinado resultado del modelo generado? Esto es similar a un examen oral en educación. (Figura 1, columnas B, D).

Estas definiciones de comprensión proporcionan un modelo para evaluar la "paradoja de la IA generativa" y permiten a los investigadores probar si la Hipótesis 1 es válida en diferentes patrones, tareas y modelos.

Cuando se pueden generar modelos, ¿se pueden discriminar? **

En primer lugar, los investigadores realizaron un análisis de rendimiento lado a lado de las variantes de la tarea generativa y la tarea discriminativa en la evaluación selectiva para evaluar la capacidad de generación y comprensión del modelo en los modos de lenguaje y visuales. Compararon esta generación y el desempeño de la discriminación con los humanos.

La Figura 2 a continuación compara el rendimiento de generación y discriminación de GPT-3.5, GPT-4 y humanos. Se puede ver que en 10 de los 13 conjuntos de datos, hay al menos un modelo que apoya la subhipótesis 1, con modelos que son mejores que los humanos en términos de generación, pero menos discriminativos que los humanos. De los 13 conjuntos de datos, 7 conjuntos de datos apoyan la subhipótesis 1 para ambos modelos.

Esperar que los humanos generen imágenes detalladas como modelos visuales no es realista, y la persona promedio no puede igualar la calidad estilística de modelos como Midjourney, por lo que se supone que los humanos tienen un rendimiento generativo más bajo. Solo la precisión de generación y discriminación del modelo se compara con la precisión de discriminación de los seres humanos. Al igual que en el dominio del lenguaje, la Figura 3 ilustra que CLIP y OpenCLIP también son menos precisos que los humanos en términos de rendimiento discriminante. Se supone que los humanos son menos capaces de generar, lo que es coherente con la subhipótesis 1: la IA de la visión está por encima de la media humana en términos de generación, pero está por detrás de los humanos en términos de comprensión.

La figura 4 (izquierda) muestra GPT-4 en comparación con los humanos. Al observarlo, se puede ver que cuando las respuestas son largas y desafiantes, como resumir un documento extenso, el modelo tiende a cometer la mayoría de los errores en la tarea discriminante. ** Los humanos, por el contrario, son capaces de mantener una alta tasa de precisión constante en tareas de dificultad variable.

La Figura 4 (derecha) muestra el rendimiento discriminante de OpenCLIP en comparación con los humanos en diferentes niveles de dificultad. En conjunto, estos resultados destacan la capacidad de los humanos para discernir la respuesta correcta incluso frente a muestras desafiantes o adversarias, pero esta capacidad no es tan fuerte en los modelos de lenguaje. Esta discrepancia plantea preguntas sobre qué tan bien se entienden realmente estos modelos.

La Figura 5 ilustra una tendencia notable: los evaluadores tienden a favorecer las respuestas GPT-4 sobre las respuestas generadas por humanos.

¿Entiende el modelo los resultados que genera? **

La sección anterior mostró que los modelos son generalmente buenos para generar respuestas precisas, pero están rezagados con respecto a los humanos en la tarea de discriminación. Ahora, en las evaluaciones basadas en preguntas, los investigadores hacen preguntas al modelo directamente sobre el contenido generado para investigar hasta qué punto el modelo puede demostrar una comprensión significativa del contenido generado, que es la fortaleza de los humanos.

En la figura 6 (izquierda) se muestran los resultados de la modalidad lingüística. Si bien el modelo sobresale en la generación, a menudo comete errores al responder preguntas sobre su generación, lo que sugiere que el modelo está cometiendo errores en la comprensión. Suponiendo que un humano no puede generar dicho texto a la misma velocidad o escala, aunque la pregunta es sobre el resultado del modelo en sí, la precisión del aseguramiento de la calidad humana ha sido consistentemente alta en comparación con el modelo. Como se describe en la subhipótesis 2, los investigadores esperan que los humanos logren una mayor precisión en su propio texto generado. Al mismo tiempo, se puede observar que los humanos en este estudio no son expertos, y puede ser un gran desafío producir un texto tan complejo como el resultado del modelo.

Como resultado, los investigadores esperan que si el modelo se compara con un experto humano, la brecha de rendimiento en la comprensión del contenido que generan se amplíe, ya que es probable que el experto humano responda a tales preguntas con una precisión casi perfecta.

La figura 6 (derecha) muestra los resultados de una pregunta en modo visual. Como puede ver, los modelos de comprensión de imágenes aún no pueden compararse con los humanos en precisión al responder preguntas simples sobre los elementos de las imágenes generadas. Al mismo tiempo, los modelos SOTA de generación de imágenes superan a la mayoría de las personas comunes en términos de calidad y velocidad de generación de imágenes (se espera que sea difícil para las personas comunes generar imágenes realistas similares), lo que sugiere que la IA visual está relativamente por detrás de los humanos en términos de generación (más fuerte) y comprensión (más débil). Sorprendentemente, existe una brecha de rendimiento más pequeña entre los modelos simples y los humanos en comparación con los LLM multimodales avanzados (es decir, Bard y BingChat), que tienen una comprensión visual fascinante pero aún tienen dificultades para responder preguntas simples sobre las imágenes generadas.

Ver originales