Investigación: ¿Será la incertidumbre en la toma de decisiones humana la clave para mejorar la IA?

Question

Escrito por Kevin DickinsonFuente: Pensar libre![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aff8056e9c-dd1a6f-69ad2a) *Fuente de la imagen: generada por la herramienta Unbounded AI*> Muchos modelos de IA suponen que los humanos siempre están seguros de sus decisiones. Esto puede tener consecuencias desafortunadas.Para muchos de nosotros, la tecnología ofrece una forma de resolver la incertidumbre. Si no podemos recordar un hecho o no entendemos algo, simplemente podemos buscarlo y obtener la respuesta. ¿En qué año terminó la Conferencia de Paz de París? Googlealo… 1920. ¿Cuántas millas son una carrera de 10 km? 6,2 millas. ¿Quién protagoniza junto al ganador del Oscar Brendan Fraser su debut cinematográfico, The Encino Man? Sean Astin y Paulie Shore.Curiosamente, cada vez ocurre más lo contrario: los ordenadores dependen de los humanos para comprobar su trabajo. Los sistemas de IA "human-in-the-loop" dependen de la intervención humana para garantizar que la IA no malinterprete la información ni haga predicciones inexactas. Esta situación suele ser más crítica que los momentos destacados de una película.Por ejemplo, un radiólogo observaría el diagnóstico de rayos X de la IA para determinar si pasó por alto una fractura o lesión. Luego, los humanos pueden corregir cualquier error y garantizar que el paciente reciba el tratamiento adecuado. Es una gran asociación, pero hay un pequeño problema: los humanos rara vez están 100 por ciento seguros de sus conclusiones.El mismo radiólogo podría ver un área de tejido óseo de diferente color en una radiografía y preguntarse: "¿Es esto una lesión o una irregularidad en la propia radiografía? Si es una lesión, ¿cuál es la causa?" ¿Es benigno o maligno?" ?" Incluso los expertos altamente capacitados (y quizás especialmente los expertos) a menudo incorporan este tipo de incertidumbre en sus observaciones y decisiones. Si creen que hay un 10% de posibilidades de que haya otro diagnóstico, pueden discutirlo con el paciente y planificar en consecuencia.Aunque esto nos parece natural, los sistemas loopback hombre-máquina no razonan de esta manera. Ven la intervención humana como binaria: o los humanos saben lo que saben o no. A su vez, esto puede limitar la capacidad de los sistemas de inteligencia artificial para reducir el riesgo de error humano en las asociaciones.Entonces, ¿es posible que estos sistemas comprendan mejor los matices de la toma de decisiones humanas, mejorando así sus capacidades y nuestro propio desempeño? Un equipo de investigadores de la Universidad de Cambridge puso a prueba esta pregunta en un nuevo artículo de investigación.## **¿está seguro? **En una primera prueba, los investigadores utilizaron modelos basados en conceptos (modelos de aprendizaje automático que mejoran las predicciones a través de la retroalimentación humana) en dos conjuntos de datos. El primer conjunto de datos, llamado "CheXpert", clasifica las radiografías de tórax. Otro conjunto de datos, llamado UMNIST, suma los números en muestras de escritura a mano. Como la mayoría de los modelos basados en conceptos, ninguno de los dos había sido entrenado previamente en materia de incertidumbre, por lo que los investigadores querían ver cómo manejarían la incertidumbre.Katherine Collins, autora principal del estudio y estudiante de posgrado en ingeniería en la Universidad de Cambridge, dijo: "Muchos desarrolladores están trabajando duro para abordar la incertidumbre en los modelos, pero hay menos trabajo que aborde la incertidumbre desde una perspectiva humana". Veamos qué sucede cuando las personas expresan incertidumbre, lo cual es particularmente importante en entornos críticos para la seguridad".La respuesta es: no muy bien. Los investigadores descubrieron que el rendimiento del modelo disminuía incluso cuando la incertidumbre en las simulaciones era baja y continuaba disminuyendo a medida que aumentaba la incertidumbre. Esto sugiere que estos modelos, si bien son precisos cuando se exponen a una intervención totalmente determinista, "no se generalizan a entornos donde los usuarios de la intervención no están seguros de la naturaleza de ciertos conceptos".En la siguiente prueba, los investigadores utilizaron un conjunto de datos de clasificación de imágenes de aves e introdujeron participantes humanos reales. Se pidió a los participantes que identificaran características específicas de las aves en las imágenes. ¿El pájaro es multicolor, liso, manchado o rayado? ¿Su cola tiene forma de tenedor, círculo, abanico o cuadrado? etc.Sin embargo, las imágenes no siempre representan mejor a las aves. El pájaro en la imagen puede ser una silueta sobre un fondo brillante, o las plumas de su cola pueden estar oscurecidas por las ramas de los árboles. Entonces, los investigadores dieron a los participantes humanos la capacidad de usar "etiquetas suaves", conceptos que no son esto o lo otro, sino que permiten a los humanos etiquetar niveles de confianza entre 0 y 100 (0 es no sé y 100 es absolutamente seguro). .Por ejemplo, si a los sujetos les resulta muy creíble que la forma del ala de un pájaro sea ancha, pueden mover el control deslizante a 80. Pero si no están seguros de si las alas son redondas o puntiagudas, pueden mover menos el control deslizante (como 20 y 10 respectivamente).Los investigadores descubrieron que cuando las máquinas son reemplazadas por humanos, el rendimiento se degrada. Sin embargo, también descubrieron que entrenar el modelo en base a la incertidumbre podría aliviar algunos de los errores cometidos por los participantes humanos. Sin embargo, estos modelos no son perfectos. A veces la incertidumbre humana ayuda; otras veces perjudica el rendimiento del modelo."Necesitamos mejores herramientas para recalibrar estos modelos de modo que las personas que los utilizan tengan la capacidad de hablar cuando no están seguros", afirmó Matthew Barker, coautor del estudio. "En cierto modo, este trabajo plantea más preguntas de las que responde, pero aunque los humanos pueden cometer errores cuando se trata de incertidumbre, podemos mejorar la confiabilidad de estos sistemas loopback hombre-máquina teniendo en cuenta el comportamiento humano en grado y confiabilidad".Investigadores de la Universidad de Princeton, el Instituto Alan Turing y Google DeepMind también se unieron al equipo de Cambridge en la investigación. Presentaron su artículo en la Conferencia AAI/ACM de 2023 sobre Inteligencia Artificial, Ética y Sociedad en Montreal. El artículo está publicado actualmente como preimpresión en arXiv.## **Hacia un futuro incierto**Los investigadores esperan que su artículo ayude algún día a desarrollar sistemas de bucle invertido hombre-máquina que tengan en cuenta la incertidumbre, reduciendo así el riesgo de errores humanos y de inteligencia artificial. Sin embargo, este estudio es sólo un primer paso hacia este objetivo.También revela varios desafíos para futuras investigaciones. Estos desafíos incluyen: cómo desarrollar modelos de IA y estrategias de intervención que tengan en cuenta errores de predicción humanos bien conocidos (como el sesgo de exceso de confianza); crear interfaces que ayuden a los humanos a medir su incertidumbre; y entrenar modelos de IA para manejar diferentes tipos de incertidumbre, como como la diferencia entre cuestionar su propio conocimiento y cómo se desarrollarán los efectos aleatorios.Si se pueden abordar estos problemas, la incertidumbre humana puede respaldar mejor la parte "humana" del "bucle hombre-máquina" y así ayudar a mejorar el rendimiento de estos modelos."Como han dicho algunos de nuestros colegas, la incertidumbre es una forma de transparencia, y eso es realmente importante", añadió Collins. "Necesitamos descubrir cuándo confiar en los modelos, cuándo confiar en las personas y por qué. En algunas aplicaciones, nos centramos en la probabilidad más que en la verosimilitud".