Desde mosaicos hasta imágenes de alta definición, la capacidad de la IA para generar imágenes se ha fortalecido, pero ¿cómo lograr un equilibrio entre belleza y distorsión?

Las herramientas de inteligencia artificial que hacen que las imágenes se vean mejor a menudo conducen a distorsiones, mientras que hacer que las imágenes parezcan más reales a menudo carece de belleza. ¿Cómo sopesar este problema?

Fuente de la imagen: Generada por IA ilimitada

En las obras de suspenso y ciencia ficción, a menudo vemos esta escena: se muestra una foto borrosa en la pantalla de la computadora, y luego el investigador pide mejorar la imagen, y luego la imagen mágicamente se vuelve clara, revelando pistas importantes.

Esto luce genial, pero ha sido una trama completamente ficticia durante décadas. Era difícil hacerlo incluso durante el período en que las capacidades generativas de la IA comenzaron a crecer: "Si simplemente acercabas la imagen, se volvía borrosa. Habría muchos detalles, pero todo estaría mal", aplica Nvidia. aprendizaje profundo dijo Bryan Catanzaro, vicepresidente de investigación.

Sin embargo, los investigadores han comenzado recientemente a incorporar algoritmos de inteligencia artificial en herramientas de mejora de imágenes, lo que hace que el proceso sea más fácil y potente, pero todavía existen limitaciones en los datos que se pueden recuperar de cualquier imagen. Pero a medida que los investigadores continúan ampliando los límites de los algoritmos mejorados, están encontrando nuevas formas de abordar estas limitaciones e incluso de superarlas.

Durante la última década, los investigadores han comenzado a mejorar imágenes utilizando modelos de redes generativas adversarias (GAN), que son capaces de producir imágenes detalladas e impresionantes.

"De pronto las imágenes parecían mucho mejores", afirma Tomer Michaeli, ingeniero eléctrico del Instituto Tecnológico Teonion de Israel, pero también se sorprendió al descubrir que las imágenes generadas por la GAN mostraban altos niveles de distorsión, una medida de la mejora Imagen Proximidad a la realidad subyacente que se muestra. Las imágenes generadas por GAN parecen hermosas y naturales, pero en realidad son detalles inexactos que "ficcionan" o "fantasean", lo que conduce a un alto grado de distorsión.

Michaeli observa que el campo de la restauración de fotografías se divide en dos categorías amplias: una muestra hermosas imágenes, muchas de las cuales son generadas por GAN. El otro muestra los datos pero no muchas imágenes porque no se ve bien.

En 2017, Michaeli y su estudiante de posgrado Yochai Blau exploraron más formalmente el rendimiento de varios algoritmos de mejora de imágenes sobre la distorsión y la calidad de percepción, utilizando medidas conocidas de calidad de percepción que se correlacionan con el juicio subjetivo humano. Como esperaba Michaeli, la calidad visual de algunos algoritmos es muy alta, mientras que otros son muy precisos con una distorsión muy baja. Pero nadie ofrece lo mejor de ambos mundos, hay que elegir uno u otro. A esto se le llama compensación por la distorsión perceptiva.

Michaeli también desafió a otros investigadores a idear algoritmos que produzcan la mejor calidad de imagen con un nivel determinado de distorsión, permitiendo una comparación justa entre algoritmos para imágenes bonitas y algoritmos para buenas estadísticas. Desde entonces, cientos de investigadores de IA han expresado su preocupación por la distorsión y la calidad de percepción de sus algoritmos, citando el artículo de Michaeli y Blau que describe esta compensación.

A veces los efectos de la distorsión perceptiva no son tan aterradores. Por ejemplo, Nvidia descubrió que las pantallas de alta definición no podían reproducir bien algunos contenidos visuales de baja definición, por lo que en febrero de 2023 lanzó una herramienta que utiliza el aprendizaje profundo para mejorar la calidad de la transmisión de videos. En este caso, los ingenieros de Nvidia prefirieron la calidad de percepción a la precisión, aceptando el hecho de que cuando el algoritmo aumenta la resolución de un vídeo, genera algunos detalles visuales que no están presentes en el vídeo original.

"El modelo es una fantasía. Es pura especulación", dijo Catanzaro. "No importa si el modelo de superresolución acierta mal la mayor parte del tiempo, siempre que sea coherente".

*Vista del flujo sanguíneo en el cerebro de un ratón (izquierda) y la misma vista después de usar herramientas de inteligencia artificial para mejorar la calidad y precisión de la imagen. Fuente: Junjie Yao, Xiaoyi Zhu, Universidad de Duke. *

En particular, las aplicaciones en investigación y medicina requerirán una mayor precisión. La tecnología de inteligencia artificial ha logrado avances significativos en la obtención de imágenes, pero "a veces tiene efectos secundarios indeseables, como sobreajuste o adición de características falsas, por lo que debe tratarse con extrema precaución", dijo Junjie Yao, ingeniero biomédico de la Universidad de Duke.

El año pasado, describió en su artículo cómo se podrían utilizar las herramientas de inteligencia artificial para mejorar las mediciones existentes del flujo sanguíneo cerebral y el metabolismo mientras se opera de manera segura en el lado preciso de la compensación de la distorsión perceptiva.

Una forma de sortear las limitaciones de la cantidad de datos que se pueden extraer de una imagen es simplemente fusionar datos de más imágenes. Anteriormente, los investigadores que estudiaban el medio ambiente a través de imágenes satelitales habían logrado algunos avances en la integración de datos visuales de diferentes fuentes: en 2021, investigadores de China y el Reino Unido fusionaron datos de dos tipos diferentes de satélites para observar mejor la deforestación en la cuenca del Congo. La cuenca del Congo es la segunda selva tropical más grande del mundo y una de las regiones con mayor diversidad biológica. Los investigadores tomaron datos de dos satélites Landsat, que han estado midiendo la deforestación durante décadas, y utilizaron técnicas de aprendizaje profundo para mejorar la resolución de las imágenes de 30 a 10 metros. Luego fusionaron este conjunto de imágenes con datos de dos satélites Sentinel-2, que tienen conjuntos de detectores ligeramente diferentes. Sus experimentos muestran que esta imagen combinada "permite la detección de entre un 11% y un 21% más de áreas perturbadas que cuando se utilizan imágenes Sentinel-2 o Landsat-7/8 solas".

Si no es posible un avance directo, Michaeli propone otro método para limitar duramente la disponibilidad de información. En lugar de buscar una respuesta definitiva sobre cómo mejorar una imagen de baja calidad, se pueden mostrar al modelo múltiples interpretaciones diferentes de la imagen original. En el artículo "Superresolución explorable", muestra cómo una herramienta de mejora de imágenes puede proporcionar múltiples sugerencias al usuario. Una imagen borrosa y de baja resolución de una persona que lleva lo que parece ser una camisa gris se puede reconstruir en una imagen de mayor resolución en la que la camisa puede tener rayas verticales, rayas horizontales o cuadros en blanco y negro, todas con la misma plausibilidad.

En otro ejemplo, Michaeli tomó una fotografía de baja calidad de una matrícula y utilizó la mejora de imagen mediante IA para mostrar que el número 1 de la matrícula se parecía más a un 0. Pero cuando la imagen se procesó a través de un algoritmo diferente y más abierto ideado por Michaeli, el número parecía igualmente probable que fuera 0, 1 u 8. Este enfoque puede ayudar a descartar otros números sin concluir erróneamente que el número es 0.

Podemos mitigar estas ilusiones, pero ese poderoso botón de "impulso" para resolver crímenes sigue siendo un sueño.

En diferentes campos, diversas disciplinas abordan el problema de la distorsión de la percepción a su manera. Cuánta información se puede extraer de las imágenes de IA y hasta qué punto se puede confiar en estas imágenes siguen siendo cuestiones centrales.

"Debemos tener en cuenta que el algoritmo simplemente está inventando los detalles para generar estas hermosas imágenes", dijo Michaeli.

Enlace original:

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)