¡Decenas de millones de personas ven la imagen del "bebé quemado"! El profesor Berkeley desmiente los rumores de que los detectores de imágenes de IA son inútiles

2023-10-15 08:45:32

Fuente del artículo: Shin Ji Yuan

No en vano, la IA no puede vencer a la IA. Recientemente, decenas de millones de personas han estado viendo fotos de muertes infantiles, y las herramientas de detección de IA no han podido dar una respuesta consistente.

¡El detector de imágenes AI se lava de nuevo!

Recientemente, se ha publicado en Internet un gran número de fotos de conflictos en Oriente Medio, que muestran al mundo lo frágil e indefensa que es la vida en condiciones tan extremas.

Entre ellos, una foto de un "bebé quemado" es demasiado cruel para ser verdad.

Entonces, alguien puso las fotos en el detector de imágenes de IA para detectar si estas fotos son generadas por IA.

Efectivamente, la foto fue identificada como "generada por IA" por el detector de IA Optic.

En 4chan, incluso hay una "imagen original", y la ubicación original del cuerpo es en realidad un perro.

Así que los internautas fueron enojados al final del tuit del editor, atacándolo por usar fotos generadas por IA para difundir un falso pánico apocalíptico.

El tuit, que cree que la foto fue generada por IA, ha sido leído por 21 millones de personas en menos de 2 días.

Pero pronto los internautas descubrieron que ponían las fotos en el mismo detector de IA, y los resultados eran casi aleatorios, tanto de IA como de humanos.

Alguien ha descubierto que siempre que se recorte la misma imagen, o se cambie el color de fondo a blanco y negro, el detector pensará que la imagen fue tomada por un humano.

Incluso a veces, cuando el detector "lanza una moneda", la moneda se levanta...

Entonces, ¿este gráfico es generado por IA?

Finalmente, el funcionario del detector de IA también tuiteó sobre este incidente, creyendo que no tienen forma de determinar si la imagen es generada por IA y esperan que todos discutan racionalmente.

Detector de imágenes AI, ¿qué tan poco confiable es?

Hany Farid, profesor de la Universidad de California en Berkeley y uno de los principales expertos mundiales en procesamiento digital de imágenes, dijo que la imagen no mostraba indicios de que fuera generada por IA.

"Uno de los mayores problemas con los generadores de imágenes de IA son las formas altamente estructuradas y las líneas rectas", dijo Farid. "Si miras las patas y los tornillos y todo se ve perfecto, es casi imposible que la imagen sea generada por IA".

Por ejemplo, en esta famosa imagen de "Bob Esponja hizo 9/1", las líneas de las torres gemelas fuera de la ventana no son rectas y los tableros del avión están retorcidos juntos, lo que parece "A en A".

"Pudimos ver en esa foto que la estructura del objeto era precisa, las sombras eran precisas, no había artefactos, eso me llevó a creer que la imagen debería ser completamente real", dijo Farid.

Farid también identificó la imagen a través de sus propios detectores de imágenes de IA, y otras cuatro herramientas de detección de imágenes de IA también asumieron que la imagen no fue generada por IA.

"Los detectores de IA son una herramienta, pero es solo una parte del conjunto de herramientas", dijo Farid. Los usuarios necesitan ejecutar una serie de pruebas en toda la imagen, y es imposible obtener una respuesta con solo tocar un botón".

Y la herramienta de detección de IA Optic no dio detalles específicos de su propia tecnología de detección.

El sitio web de Optic también afirma que "los detectores de IA pueden producir resultados inexactos".

Tecnología de detección de imágenes con IA

El profesor Farid escribió un artículo el año pasado sobre cómo juzgar la consistencia de las imágenes en las herramientas de biografía de IA.

Al juzgar la consistencia de la imagen, puede ayudar a determinar si la imagen es generada por IA.

Enlace de papel:

El profesor comienza esbozando tres métodos de análisis relevantes basados en la física, cada uno de los cuales se basa en la misma geometría de perspectiva fundamental inherente al proceso de formación de imágenes.

Punto de fuga

Las líneas de retroceso paralelas convergen en un punto de fuga.

瓷砖之间的线图1(a) es paralela. Al tomar imágenes, todas estas líneas convergen en un punto de fuga. Si las líneas paralelas de la escena están lejos de la profundidad de la lente, entonces hay un punto de fuga, aunque puede quedar fuera de la imagen.

Si las líneas paralelas de la escena no retroceden en profundidad, es decir, si son perfectamente paralelas al sensor de la lente (a cualquier distancia), las líneas paralelas se visualizarán como líneas paralelas y, a efectos prácticos, se puede considerar que el punto de fuga está en el infinito. Esta geometría se deriva de los fundamentos de la proyección en perspectiva.

Bajo la proyección en perspectiva, los puntos (X, Y, Z) de la escena se visualizan en puntos (f X/Z, f Y/Z), donde f es la distancia focal de la lente.

Dado que la posición del punto en la imagen es inversamente proporcional a la distancia Z, el punto proyectado se comprime en función de la distancia, lo que da como resultado la convergencia de líneas en la imagen;

Las líneas paralelas en planos paralelos convergen en el mismo punto de fuga

La caja distante está alineada con las baldosas en el piso en la Figura 1 (b) de modo que los bordes de la caja sean paralelos a la línea entre las baldosas. Debido a que las líneas paralelas en planos paralelos comparten un punto de fuga, el punto de fuga es el mismo en el costado de la caja y en el piso de baldosas;

El punto de fuga de todas las líneas del plano se encuentra en la línea de fuga.

Muchos grupos de líneas paralelas, cada una de las cuales converge a un punto de fuga diferente, como se muestra en la Figura 1 (c). Si grupos de líneas paralelas abarcan el mismo plano en la escena, sus puntos de fuga estarán en la línea de fuga. La dirección de la línea de fuga está determinada por la rotación de la lente en relación con el plano a través del cual cruza la línea paralela

Sombras

Sorprendentemente, la misma geometría detrás del punto de fuga también funciona para proyectar sombras.

La imagen de arriba muestra tres rayos que conectan los puntos de la caja y sus contrapartes en las sombras proyectadas. Extendiendo el límite de la imagen, se encuentra que los tres rayos se cruzan en un punto que corresponde a la proyección de la fuente de luz que ilumina la escena.

Esta restricción geométrica asociada con las sombras, los objetos y la luz se mantiene independientemente de la ubicación y orientación de la superficie sobre la que se proyecta la sombra, ya sea que la fuente de luz esté cerca (lámpara de escritorio) o lejos (el sol).

Por supuesto, el análisis asume que la escena está iluminada por una sola fuente de luz maestra, lo que es evidente por la presencia de una sola sombra proyectada por objeto.

En el ejemplo anterior, la fuente de luz que ilumina la escena está delante de la lente, por lo que la proyección de la fuente de luz está en la mitad superior del plano de la imagen.

Sin embargo, si la luz está detrás de la lente, la proyección de la fuente de luz estará en la mitad inferior del plano de la imagen. Debido a esta inversión, la sombra de la restricción de objeto también debe invertirse.

Por lo tanto, el análisis de la sombra proyectada de la imagen debe considerar tres posibilidades:

(1) La luz se encuentra frente a la lente, la proyección de la fuente de luz se encuentra en la parte superior del plano de la imagen, y la restricción está anclada a la sombra proyectada y encierra el objeto;

(2) la luz está detrás de la lente y la fuente de luz se proyecta en la mitad inferior del plano de la imagen, restringiendo anclada al objeto y envolviendo la sombra proyectada;

(3) La luz se encuentra directamente encima o debajo del centro de la lente, la proyección de la fuente de luz está en el infinito y las restricciones se cruzarán en el infinito. Si alguno de estos casos da lugar a la intersección común de todas las restricciones, es físicamente razonable proyectar sombras.

Reflexión

La escena que se muestra en la Figura 2 muestra tres cajas reflejadas en un espejo plano.

La mitad inferior de este diagrama muestra la relación geométrica entre la caja real y la caja virtual.

La línea naranja representa el espejo, ubicado en el punto medio entre los dos conjuntos de cajas. La línea amarilla conecta los puntos correspondientes en las casillas real y virtual. Estas líneas son paralelas entre sí y perpendiculares al espejo.

Consideremos ahora cómo aparecen estas líneas paralelas cuando se superponen a la escena. Cuando se ve desde el plano de simetría, las líneas paralelas ya no son paralelas. En cambio, debido a la proyección en perspectiva, estas líneas paralelas convergen en un punto, al igual que las líneas paralelas en el mundo convergen en un punto de fuga.

Debido a que las líneas que conectan los puntos correspondientes de la escena y sus reflejos son siempre paralelas, las líneas deben tener una intersección común en la imagen para que sean físicamente plausibles.

Análisis de instancias

La Figura 3 muestra tres ejemplos representativos de imágenes compuestas de IA y analiza la consistencia de la perspectiva geométrica de pisos y encimeras.

Cada imagen (con un margen de unos pocos píxeles) captura con precisión la geometría de perspectiva del suelo de baldosas como evidencia de un punto de fuga coherente (representado en azul). Sin embargo, el punto de fuga de una encimera paralela (representado en cian) es geométricamente inconsistente con el punto de fuga de una encimera.

Alinee los mosaicos en consecuencia. Incluso si la encimera no es paralela a la baldosa, el punto de fuga cian debe estar en la línea de fuga (representada en rojo) definida por el punto de fuga del piso de baldosas. Tenga en cuenta que para la imagen en la esquina superior derecha de la Figura 3, las líneas horizontales en el piso de baldosas son casi paralelas, por lo que los puntos de fuga correspondientes están en el infinito y, por lo tanto, no se cruzan.

Si bien los puntos de fuga en estas imágenes son localmente consistentes, no son globalmente consistentes. En cada una de las 25 imágenes compuestas de cocina, se encontró el mismo patrón.

La imagen de arriba es una imagen cuadrada generada con un mensaje, y hay una clara inconsistencia en las sombras.

La Figura 8 muestra el resultado de aplicar el análisis geométrico a una imagen generada por IA que contiene un reflejo bastante preciso.

Aunque estos reflejos están justificados visualmente, son geométricamente inconsistentes.

A diferencia de las sombras proyectadas y la geometría de las secciones anteriores, DALL· E-2 es difícil de sintetizar reflexiones razonables, presumiblemente porque dichas reflexiones son menos comunes en su conjunto de datos de imágenes de entrenamiento.

Sobre la base de esta comprensión de las limitaciones de las imágenes generadas por IA, es muy útil determinar si la imagen es sintetizada por IA a través de la detección de la consistencia de la imagen.

El reconocimiento de imágenes es difícil, la IA vence a la IA

Los generadores de imágenes de IA están en constante evolución.

En la primera mitad del año, Midjourney explotó y fue capaz de generar imágenes lo suficientemente realistas, pero engañó a mucha gente.

El papa, de 86 años, lleva un sombrero de melón blanco, una chaqueta blanca acampanada y un collar de metal cruzado que queda al descubierto, además de una expresión seria.

En ese momento, tan pronto como se publicó la foto, engañó a todos en las redes sociales y fue reenviada frenéticamente por muchos internautas, y algunos incluso llamaron al Papa demasiado moderno.

Cuando todos lo creyeron, alguien señaló de repente que fue generado por IA, y muchas personas se quedaron estupefactas al instante.

Esta es solo una de las castañas, y varias imágenes falsas como la de Barra, la CEO de la nueva novia de Musk, GM, han alcanzado el nivel de falsa realidad.

Este incidente provocó directamente que Musk, el cofundador de Apple, Stephen Wozniak, y otros líderes tecnológicos pidieran la suspensión de la investigación y el desarrollo de la IA.

Si bien la generación de IA es divertida y conveniente, plantea riesgos para la industria en su conjunto.

Si no es pequeño, será utilizado por personas con motivos ocultos para difundir información falsa, infringir los derechos de propiedad intelectual o usarlo para generar "fotos de frutas", etc.

En los próximos meses, Midjourney lanzará la última versión V6, que se ha perfeccionado en términos de generación de imágenes.

Otros generadores de imágenes de IA también están iterando rápidamente. Hace algún tiempo, OpenAI acaba de lanzar DALL· E 3, al mismo tiempo que la generación de imágenes de Microsoft Bing también utilizaba DALL· E 3。

Por supuesto, los investigadores también están tratando de construir herramientas que puedan distinguir imágenes, la clave es cómo mantenerse al día con el ritmo de los generadores de imágenes de IA.

Concurso de herramientas de inspección de IA

Ahora, más de una docena de empresas han proporcionado herramientas para identificar si una imagen fue generada por IA, y sus nombres incluyen Sensity AI (detección de deepfasity), Fictitious.AI (detección de plagio), Originality.AI y más.

La empresa de confianza y seguridad en inteligencia artificial Optic ha lanzado un sitio web "AI or Not".

En este sitio web, puede cargar una foto o pegar la URL de una imagen, y el sitio web determinará automáticamente si la foto fue generada por IA. No hay límite en el número de imágenes que puedes subir.

Alternativamente, puede publicar o retuitear una imagen en la cuenta de Twitter de Optic @optic_xyz, o agregar #aiornot, y obtendrá una respuesta con el porcentaje de confianza de la imagen.

Andrey Doronichev, director ejecutivo de la compañía, dijo que las herramientas de inteligencia artificial de Optic pueden verificar cada imagen en busca de artefactos que son invisibles para el ojo humano, como cambios en el brillo y el color de la imagen.

Sorprendentemente, la herramienta tiene una tasa de precisión del 95%.

Sin embargo, con la actualización e iteración de herramientas de generación de imágenes de IA como Midjourney, la tasa de precisión de "AI or Not" se redujo al 88,9%.

Por ejemplo, en la imagen del Papa, la IA cree que hay un 87% de probabilidades de que los humanos lo hagan.

La imagen del Papa con una chaqueta blanca fue engañada antes de la actualización de Optic

De hecho, algunos internautas dijeron que si miras de cerca esta imagen, encontrarás signos obvios generados por la inteligencia artificial, incluidas varias áreas de detalle obviamente borrosas:

La mano aparentemente incompleta está tratando de agarrar algo que no se parece mucho a una taza de café con una mancha al lado
La cruz que lleva el Papa no tiene forma de ángulo recto, sino que también tiene un grabado de un Jesús sentado que parece tallado en arcilla
Las gafas no coinciden con las sombras de la cara

Todos estos puntos indican que esto es generado por la inteligencia artificial. Solo entiende la superficie de la realidad, pero no las reglas básicas que gobiernan cómo interactúan los objetos físicos.

Además de las herramientas de Optic, Hive, una empresa de IA que etiqueta contenido, actualizó recientemente su propio detector gratuito de contenido generado por IA.

La herramienta de IA se entrenó con millones de imágenes de DALL-E, Stable Diffusion y Midjourney.

Hive espera que detecte con precisión alrededor del 95 por ciento de las imágenes generadas por IA, especialmente las imágenes compartidas que se vuelven virales en línea, a menudo mejor que otros tipos de reconocimiento de imágenes.

El CEO Kevin Guo dijo que cuando las personas comparten imágenes de IA, eligen las imágenes falsas más realistas, para que las personas puedan distinguir lo que es real.

La imagen de la izquierda es una imagen generada por IA que se puede discernir con dos dedos y chocar los cinco, mientras que la imagen real se ve como en una foto normal de iStock que se muestra a la derecha.

Al igual que Optic, Hive no pudo detectar imágenes de Bing Image Creator.

Sin embargo, estas herramientas de detección no están estancadas y se actualizarán y actualizarán a medida que se itere el modelo de imagen de IA.

De hecho, el reconocimiento de imágenes de IA no solo puede depender de las herramientas de detección de la industria para completarse, sino también establecer barreras de seguridad al entrenar modelos.

Muchos generadores de imágenes de inteligencia artificial también tienen una "lista negra" que limita si se puede generar algún contenido.

Por ejemplo, Bing Image Creator marca y bloquea las solicitudes de los usuarios que le piden que cree imágenes de figuras públicas conocidas.

Midjourney tiene "moderadores humanos" y está implementando una forma de usar algoritmos para moderar las solicitudes de los usuarios.

Y DALL· Según el informe técnico de E 3, cuando se le pide a ChatGPT que genere algunos "mapas de frutas", o imágenes en blanco y negro, la entrada se reescribe directamente.

Agregue una marca de agua a la IA, los grandes fabricantes lo están haciendo

Además, la marca de agua digital también es uno de los medios importantes para mejorar la seguridad de la IA generativa, y gigantes tecnológicos como Microsoft y Google se han utilizado en productos.

Microsoft presentó DALL· en la Surface Conference en septiembre. E 3 bendecido con la capacidad de Bing para generar imágenes.

Al mismo tiempo, para garantizar que no se abuse de las imágenes, el equipo de Microsoft utiliza métodos de cifrado para generar marcas de agua invisibles para cada imagen, incluida la hora y la fecha de creación.

Cualquiera puede hacer clic en cada imagen e identificar fácilmente si fue generada por IA.

Meta también abrió el código Stable Signature, que incrusta marcas de agua digitales directamente en imágenes generadas automáticamente por IA.

Dirección del papel:

Vale la pena mencionar que la marca de agua digital generada por Stable Signature no se ve afectada por operaciones destructivas como recortar, comprimir, cambiar de color, etc., y se puede rastrear hasta la fuente original de la imagen.

Se puede aplicar a modelos como la difusión y la GAN, como la difusión estable.

Y Google, en Google Cloud Next, también lanzó SynthID que marca imágenes generadas por IA y las detecta e identifica.

SynthID utiliza dos modelos de aprendizaje profundo, uno para la marca de agua y otro para el reconocimiento. Se pueden entrenar juntos en un conjunto de imágenes diferentes.

El modelo combinado está optimizado para una serie de objetivos, incluida la identificación correcta del contenido con marca de agua y la mejora de la ocultación de la marca de agua mediante la alineación visual de la marca de agua con el contenido original.

La marca de agua digital generada por SynthID está incrustada directamente en los píxeles de la imagen y es imperceptible para el ojo humano. Pero SynthID puede detectarlos e identificarlos.

SynthID puede ayudar a evaluar la probabilidad de que una imagen haya sido creada por Imagen

Amit Roy-Chowdhury, profesor de ingeniería eléctrica e informática en la Universidad de California, Riverside, dijo que al observar de cerca el fondo de la imagen, podemos detectar mejor las imágenes falsas con nuestros propios ojos.

Sin embargo, en el momento en que los modelos de IA están acelerando la iteración, es demasiado difícil tener un "ojo de oro".

Recursos:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

3 me gusta

Recompensa
3
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1CandyDrop Airdrop Event 6.0
17k Popularidad
2White House Crypto Report
35k Popularidad
3Join Alpha RION Airdrop to Earn $40
9k Popularidad
4Fed Holds Rates Decision
8k Popularidad
5July Spark Program TOP 10 Creators Announced
2k Popularidad

Anclado