Não é à toa que a IA não consegue vencer a IA. Recentemente, dezenas de milhões de pessoas têm assistido a fotos de mortes infantis, e as ferramentas de deteção de IA não têm sido capazes de dar uma resposta consistente.
O detetor de imagem AI é lavado novamente!
Recentemente, um grande número de fotos de conflitos no Oriente Médio foram publicadas na Internet, mostrando ao mundo como a vida é frágil e desamparada em condições tão extremas.
Entre eles, uma foto de um "bebê queimado" é cruel demais para ser verdade.
Então, alguém colocou as fotos no detetor de imagens de IA para detetar se essas fotos são geradas por IA.
Com certeza, a foto foi identificada como "gerada por IA" pelo detetor de IA Optic.
No 4chan, há até uma "imagem original", e a localização original do corpo é, na verdade, um cão.
Então, internautas furiosos foram para o fundo do tweet do editor, atacando-o por usar fotos geradas por IA para espalhar falso pânico apocalíptico.
O tweet, que acredita que a foto foi gerada por IA, foi lido por 21 milhões de pessoas em menos de 2 dias.
Mas logo os internautas descobriram que colocaram as fotos no mesmo detetor de IA, e os resultados foram quase aleatórios, tanto de IA quanto de humanos.
Alguém descobriu que, desde que a mesma imagem seja cortada, ou a cor de fundo seja alterada para preto e branco, o detetor pensará que a imagem foi tirada por um humano.
Mesmo às vezes, quando o detetor "joga uma moeda", a moeda vai se levantar...
Então este gráfico é gerado pela IA?
Por fim, o oficial do detetor de IA também tuitou sobre este incidente, acreditando que eles não têm como determinar se a imagem é gerada por IA, e espera que todos discutam racionalmente.
**AI detetor de imagem, quão não confiável é? **
Hany Farid, professor da UC Berkeley e um dos maiores especialistas mundiais em processamento digital de imagens, disse que a imagem não mostrou nenhuma indicação de que foi gerada por IA.
"Um dos maiores problemas com geradores de imagem de IA são formas altamente estruturadas e linhas retas", disse Farid. "Se você olhar para as pernas e parafusos e tudo parecer perfeito, é quase impossível que a imagem seja gerada por IA."
Por exemplo, nesta famosa imagem de "Bob Esponja Calça Quadrada feita 9/1", as linhas das torres gêmeas fora da janela não são retas, e os painéis do avião são torcidos juntos, o que parece "A em A".
"Pudemos ver naquela foto que a estrutura do objeto era precisa, as sombras eram precisas, não havia artefatos – isso me levou a acreditar que a imagem deveria ser completamente real", disse Farid.
Farid também identificou a imagem através de seus próprios outros detetores de imagem de IA, e quatro outras ferramentas de deteção de imagem de IA também assumiram que a imagem não era gerada por IA.
"Os detetores de IA são uma ferramenta, mas é apenas parte do kit de ferramentas", disse Farid. Os usuários precisam executar uma série de testes em toda a imagem, e é impossível obter uma resposta com o toque de um botão."
E a ferramenta de deteção de IA Optic não deu detalhes específicos de sua própria tecnologia de deteção.
O site da Optic também afirma que "os detetores de IA podem produzir resultados imprecisos".
Tecnologia de Deteção de Imagem AI
O professor Farid escreveu um artigo no ano passado sobre como julgar a consistência das imagens em ferramentas de biografia de IA.
Ao julgar a consistência na imagem, pode ajudar a determinar se a imagem é gerada por IA.
Link do artigo:
O professor começa por delinear três métodos de análise relevantes baseados na física, cada um com base na mesma geometria de perspetiva fundamental inerente ao processo de formação da imagem.
Ponto de Fuga
Linhas paralelas de recuo convergem em um ponto de fuga.
瓷砖之间的线图1(a) é paralela. Ao fazer imagens, todas essas linhas convergem em um ponto de fuga. Se as linhas paralelas na cena estão longe da lente em profundidade, então há um ponto de fuga, embora possa cair fora da imagem.
Se as linhas paralelas na cena não recuarem em profundidade, isto é, se forem perfeitamente paralelas ao sensor da lente (a qualquer distância), as linhas paralelas serão fotografadas como linhas paralelas e, para fins práticos, o ponto de fuga pode ser considerado como estando no infinito. Esta geometria decorre dos fundamentos da projeção em perspetiva.
Sob projeção em perspetiva, os pontos (X, Y, Z) na cena são fotografados para pontos (f X / Z, f Y / Z), onde f é a distância focal da lente.
Uma vez que a posição do ponto na imagem é inversamente proporcional à distância Z, o ponto projetado é comprimido em função da distância, resultando na convergência de linhas na imagem;
Linhas paralelas em planos paralelos convergem para o mesmo ponto de fuga
A caixa distante é alinhada com os azulejos no chão na Figura 1(b) de modo que as bordas da caixa sejam paralelas à linha entre os azulejos. Como as linhas paralelas em planos paralelos compartilham um ponto de fuga, o ponto de fuga é o mesmo no lado da caixa e no piso de azulejo;
O ponto de fuga de todas as linhas do plano está localizado na linha de fuga.
Muitos grupos de linhas paralelas, cada um convergindo para um ponto de fuga diferente, como mostra a Figura 1(c). Se grupos de linhas paralelas se estenderem pelo mesmo plano na cena, seus pontos de fuga estarão na linha de fuga. A direção da linha de fuga é determinada pela rotação da lente em relação ao plano através do qual a linha paralela se cruza
Sombras
Surpreendentemente, a mesma geometria por trás do ponto de fuga também funciona para projetar sombras.
A imagem acima mostra três raios conectando os pontos na caixa e seus homólogos nas sombras projetadas. Ampliando o limite da imagem, verifica-se que os três raios se cruzam num ponto que corresponde à projeção da fonte de luz que ilumina a cena.
Esta restrição geométrica associada a sombras, objetos e luz mantém-se independentemente da localização e orientação da superfície em que a sombra é projetada, quer a fonte de luz esteja próxima (lâmpada de secretária) ou longe (o sol).
É claro que a análise assume que a cena é iluminada por uma única fonte de luz mestre, o que é evidente a partir da presença de apenas uma única sombra projetada por objeto.
No exemplo acima, a fonte de luz que ilumina a cena está na frente da lente, de modo que a projeção da fonte de luz está na metade superior do plano da imagem.
No entanto, se a luz estiver atrás da lente, a projeção da fonte de luz estará na metade inferior do plano da imagem. Devido a essa inversão, a sombra da restrição de objeto também deve ser invertida.
Portanto, a análise de sombra de projeção da imagem deve considerar três possibilidades:
(1) A luz está localizada na frente da lente, a projeção da fonte de luz está localizada na parte superior do plano da imagem, e a restrição é ancorada à sombra projetada e encerra o objeto;
(2) a luz está atrás da lente, e a fonte de luz é projetada na metade inferior do plano da imagem, restringindo ancorado ao objeto e envolvendo a sombra projetada;
(3) A luz está localizada diretamente acima ou abaixo do centro da lente, a projeção da fonte de luz está no infinito e as restrições se cruzarão no infinito. Se algum destes casos resultar na intersecção comum de todas as restrições, é fisicamente razoável lançar sombras.
Reflexão
A cena mostrada na Figura 2 abaixo mostra três caixas refletidas em um espelho plano.
A metade inferior deste diagrama mostra a relação geométrica entre a caixa real e a caixa virtual.
A linha laranja representa o espelho, localizado no ponto médio entre os dois conjuntos de caixas. A linha amarela conecta os pontos correspondentes nas caixas reais e virtuais. Estas linhas são paralelas umas às outras e perpendiculares ao espelho.
Agora considere como essas linhas paralelas aparecem quando são sobrepostas na cena. Quando vistas do plano do espelho, as linhas paralelas não são mais paralelas. Em vez disso, devido à projeção da perspetiva, essas linhas paralelas convergem para um ponto, assim como linhas paralelas no mundo convergem para um ponto de fuga.
Como as linhas que conectam os pontos correspondentes na cena e seus reflexos são sempre paralelas, as linhas devem ter uma interseção comum na imagem para serem fisicamente plausíveis.
Análise de instância
A Figura 3 acima mostra três exemplos representativos de imagens compostas de IA e analisa a consistência da perspetiva geométrica de pisos e bancadas.
Cada imagem (dentro de alguns pixels) captura com precisão a geometria da perspetiva do piso de azulejo como evidência de um ponto de fuga consistente (renderizado em azul). No entanto, o ponto de fuga de uma bancada paralela (renderizada em ciano) é geometricamente inconsistente com o ponto de fuga de uma bancada.
Alinhe os blocos de acordo. Mesmo que a bancada não seja paralela ao azulejo, o ponto de fuga ciano deve estar na linha de fuga (renderizada em vermelho) definida pelo ponto de fuga do piso de azulejo. Observe que, para a imagem no canto superior direito da Figura 3, as linhas horizontais no piso de azulejo são quase paralelas, de modo que os pontos de fuga correspondentes estão no infinito e, portanto, não se cruzam.
Embora os pontos de fuga nessas imagens sejam localmente consistentes, eles não são globalmente consistentes. Em cada uma das 25 imagens compostas da cozinha, foi encontrado o mesmo padrão.
A imagem acima é uma imagem quadrada gerada com um prompt, e há uma clara inconsistência nas sombras.
A Figura 8 acima mostra o resultado da aplicação da análise geométrica a uma imagem gerada por IA contendo uma reflexão bastante precisa.
Embora essas reflexões sejam visualmente justificadas, elas são geometricamente inconsistentes.
Ao contrário das sombras projetadas e geometria nas seções anteriores, DALL· E-2 é difícil de sintetizar reflexões razoáveis, presumivelmente porque tais reflexões são menos comuns em seu conjunto de dados de imagem de treinamento.
Com base nesses entendimentos das limitações das imagens geradas por IA, é muito útil determinar se a imagem é sintetizada pela IA através da deteção da consistência da imagem.
O reconhecimento de imagem é difícil, a IA supera a IA
Os geradores de imagem de IA estão em constante evolução.
No primeiro semestre do ano, Midjourney explodiu e foi capaz de gerar imagens realistas o suficiente, mas enganou muitas pessoas.
O papa de 86 anos usa um chapéu de melão branco, uma jaqueta branca e um colar de cruz de metal que está exposto, além de uma expressão séria.
Naquela época, assim que a foto foi divulgada, enganou a todos nas redes sociais, e foi freneticamente encaminhada por muitos internautas, e alguns até chamaram o papa de muito trendy.
Quando todos acreditaram, alguém de repente apontou que foi gerado pela IA, e muitas pessoas ficaram instantaneamente estupefactas.
Esta é apenas uma das castanhas, e várias fotos falsas, como a de Barra, o CEO da nova namorada de Musk, a GM, atingiram o nível de falsa realidade.
Este incidente levou diretamente Musk, o cofundador da Apple, Stephen Wozniak, e outros líderes de tecnologia a pedir a suspensão da pesquisa e desenvolvimento de IA.
Embora a geração de IA seja divertida e conveniente, ela representa riscos para a indústria como um todo.
Se não for pequeno, será usado por pessoas com segundas intenções para espalhar informações falsas, infringir direitos de propriedade intelectual ou usá-lo para gerar "fotos de frutas" e assim por diante.
Nos próximos meses, a Midjourney lançará a versão V6 mais recente, que foi aperfeiçoada em termos de geração de imagens.
Outros geradores de imagem de IA também estão iterando rapidamente. Há algum tempo, a OpenAI acaba de lançar o DALL· E 3, ao mesmo tempo, a geração de imagens do Microsoft Bing também usou DALL· E 3。
Claro, os pesquisadores também estão tentando construir ferramentas que possam distinguir imagens, a chave é como acompanhar o ritmo dos geradores de imagens de IA?
Concurso de Ferramenta de Inspeção de IA
Agora, mais de uma dúzia de empresas forneceram ferramentas para identificar se uma imagem foi gerada por IA, e seus nomes incluem Sensity AI (deteção de deepfasity), Fictitious.AI (deteção de plágio), Originality.AI e muito mais.
A empresa de confiança e segurança de inteligência artificial Optic lançou um site "AI or Not".
Neste site, você pode carregar uma foto ou colar um URL de imagem, e o site determinará automaticamente se a foto foi gerada por IA. Não há limite para o número de imagens que pode carregar.
Como alternativa, você pode postar ou retweetar uma imagem na conta do Twitter da Optic, @optic_xyz, ou adicionar #aiornot, e receberá uma resposta com a porcentagem de confiança da imagem.
Andrey Doronichev, presidente-executivo da empresa, disse que as ferramentas de IA da Optic podem verificar cada imagem em busca de artefatos invisíveis ao olho humano, como mudanças de brilho e cor na imagem.
Surpreendentemente, a ferramenta tem uma taxa de precisão de 95%.
No entanto, com a atualização e iteração de ferramentas de geração de imagens de IA, como o Midjourney, a taxa de precisão de "AI or Not" caiu para 88,9%.
Por exemplo, na imagem do Papa, a IA acredita que há uma probabilidade de 87% de que os humanos o façam.
A imagem do papa com uma jaqueta branca foi enganada antes da atualização ótica
Na verdade, alguns internautas disseram que, se você olhar atentamente para esta imagem, encontrará sinais óbvios gerados pela inteligência artificial, incluindo várias áreas de detalhes obviamente borradas:
A mão aparentemente incompleta está tentando agarrar algo que não se assemelha muito a uma xícara de café com uma mancha ao lado
A cruz usada pelo Papa não tem a forma de um ângulo reto, mas também tem uma gravura de um Jesus sentado que parece ser esculpida em barro
Os óculos não combinam com as sombras do rosto
Todos esses pontos indicam que isso é gerado pela inteligência artificial. Ele apenas compreende a superfície da realidade, mas não as regras básicas que regem como os objetos físicos interagem.
Além das ferramentas da Optic, a Hive, uma empresa de IA que marca conteúdo, atualizou recentemente seu próprio detetor de conteúdo gratuito gerado por IA.
A ferramenta de IA foi treinada em milhões de imagens do DALL-E, Stable Diffusion e Midjourney.
O Hive espera que ele detete com precisão cerca de 95% das imagens geradas por IA, especialmente imagens compartilhadas que viralizam online, muitas vezes melhor do que outros reconhecimentos de imagem.
O CEO Kevin Guo disse que quando as pessoas compartilham imagens de IA, elas escolhem as imagens falsas mais realistas, para que as pessoas possam distinguir o que é real.
A imagem à esquerda é uma imagem gerada por IA que pode ser discernida a partir de dois dedos e o ímpar high-five, enquanto a coisa real parece em uma foto iStock regular é mostrada à direita.
Como o Optic, o Hive não conseguiu detetar imagens do Bing Image Creator.
No entanto, essas ferramentas de deteção não estão estagnadas e serão atualizadas à medida que o modelo de imagem de IA for iterado.
Na verdade, o reconhecimento de imagem de IA pode não apenas contar com as ferramentas de deteção na indústria para completar, mas também configurar guarda-corpos ao treinar modelos.
Muitos geradores de imagens de inteligência artificial também têm uma "lista negra" que limita se algum conteúdo pode ser gerado.
Por exemplo, o Bing Image Creator sinaliza e bloqueia solicitações de usuários que pedem para criar imagens de figuras públicas conhecidas.
A Midjourney tem "moderadores humanos" e está lançando uma maneira de usar algoritmos para moderar as solicitações dos usuários.
E DALL· De acordo com o relatório técnico do E 3, quando você pede ao ChatGPT para gerar alguns "mapas de frutas", ou imagens envolvendo preto e branco, a entrada é diretamente reescrita.
** Adicione marca d'água à IA, grandes fabricantes estão fazendo **
Além disso, a marca d'água digital também é um dos meios importantes para melhorar a segurança da IA generativa, e gigantes da tecnologia como Microsoft e Google têm sido usados em produtos.
A Microsoft apresentou o DALL· na Conferência do Surface em setembro. E 3 abençoado com a capacidade do Bing de gerar imagens.
Ao mesmo tempo, para garantir que as imagens não sejam abusadas, a equipe da Microsoft usa métodos de criptografia para gerar marcas d'água invisíveis para cada imagem, incluindo a hora e a data de criação.
Qualquer pessoa pode clicar em cada imagem e identificar facilmente se ela foi gerada por IA.
A Meta também tem Assinatura Estável de código aberto, que incorpora marcas d'água digitais diretamente em imagens geradas automaticamente pela IA.
Endereço em papel:
Vale a pena mencionar que a marca d'água digital gerada pela Assinatura Estável não é afetada por operações destrutivas como cortar, comprimir, mudar de cor, etc., e pode ser rastreada até a fonte original da imagem.
Pode ser aplicado a modelos como difusão e GAN, como Difusão Estável.
E o Google, no Google Cloud Next, também lançou o SynthID que marca d'água imagens geradas por IA e as deteta e identifica.
O SynthID usa dois modelos de aprendizagem profunda, um para marca d'água e outro para reconhecimento. Eles podem ser treinados juntos em um conjunto de imagens diferentes.
O modelo combinado é otimizado para uma variedade de objetivos, incluindo a identificação correta do conteúdo com marca d'água e a melhoria da ocultação da marca d'água alinhando visualmente a marca d'água com o conteúdo original.
A marca d'água digital gerada pelo SynthID é incorporada diretamente nos pixels da imagem e é impercetível ao olho humano. Mas o SynthID pode detetá-los e identificá-los.
O SynthID pode ajudar a avaliar a probabilidade de uma imagem ter sido criada pelo Imagen
Amit Roy-Chowdhury, professor de engenharia elétrica e de computação da Universidade da Califórnia, Riverside, disse que, olhando atentamente para o fundo da imagem, podemos detetar melhor imagens falsas com nossos próprios olhos.
No entanto, no momento em que os modelos de IA estão acelerando a iteração, é muito difícil ter um "olho dourado".
Recursos:
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Dezenas de milhões de pessoas assistem à imagem do "bebê queimado"! Professor Berkeley desmente rumores de que detetores de imagem de IA são inúteis
Fonte do artigo: Shin Ji Yuan
Não é à toa que a IA não consegue vencer a IA. Recentemente, dezenas de milhões de pessoas têm assistido a fotos de mortes infantis, e as ferramentas de deteção de IA não têm sido capazes de dar uma resposta consistente.
O detetor de imagem AI é lavado novamente!
Recentemente, um grande número de fotos de conflitos no Oriente Médio foram publicadas na Internet, mostrando ao mundo como a vida é frágil e desamparada em condições tão extremas.
Entre eles, uma foto de um "bebê queimado" é cruel demais para ser verdade.
Com certeza, a foto foi identificada como "gerada por IA" pelo detetor de IA Optic.
Por fim, o oficial do detetor de IA também tuitou sobre este incidente, acreditando que eles não têm como determinar se a imagem é gerada por IA, e espera que todos discutam racionalmente.
**AI detetor de imagem, quão não confiável é? **
Hany Farid, professor da UC Berkeley e um dos maiores especialistas mundiais em processamento digital de imagens, disse que a imagem não mostrou nenhuma indicação de que foi gerada por IA.
"Um dos maiores problemas com geradores de imagem de IA são formas altamente estruturadas e linhas retas", disse Farid. "Se você olhar para as pernas e parafusos e tudo parecer perfeito, é quase impossível que a imagem seja gerada por IA."
Por exemplo, nesta famosa imagem de "Bob Esponja Calça Quadrada feita 9/1", as linhas das torres gêmeas fora da janela não são retas, e os painéis do avião são torcidos juntos, o que parece "A em A".
Farid também identificou a imagem através de seus próprios outros detetores de imagem de IA, e quatro outras ferramentas de deteção de imagem de IA também assumiram que a imagem não era gerada por IA.
"Os detetores de IA são uma ferramenta, mas é apenas parte do kit de ferramentas", disse Farid. Os usuários precisam executar uma série de testes em toda a imagem, e é impossível obter uma resposta com o toque de um botão."
E a ferramenta de deteção de IA Optic não deu detalhes específicos de sua própria tecnologia de deteção.
O site da Optic também afirma que "os detetores de IA podem produzir resultados imprecisos".
Tecnologia de Deteção de Imagem AI
O professor Farid escreveu um artigo no ano passado sobre como julgar a consistência das imagens em ferramentas de biografia de IA.
Ao julgar a consistência na imagem, pode ajudar a determinar se a imagem é gerada por IA.
O professor começa por delinear três métodos de análise relevantes baseados na física, cada um com base na mesma geometria de perspetiva fundamental inerente ao processo de formação da imagem.
Ponto de Fuga
Se as linhas paralelas na cena não recuarem em profundidade, isto é, se forem perfeitamente paralelas ao sensor da lente (a qualquer distância), as linhas paralelas serão fotografadas como linhas paralelas e, para fins práticos, o ponto de fuga pode ser considerado como estando no infinito. Esta geometria decorre dos fundamentos da projeção em perspetiva.
Sob projeção em perspetiva, os pontos (X, Y, Z) na cena são fotografados para pontos (f X / Z, f Y / Z), onde f é a distância focal da lente.
Uma vez que a posição do ponto na imagem é inversamente proporcional à distância Z, o ponto projetado é comprimido em função da distância, resultando na convergência de linhas na imagem;
A caixa distante é alinhada com os azulejos no chão na Figura 1(b) de modo que as bordas da caixa sejam paralelas à linha entre os azulejos. Como as linhas paralelas em planos paralelos compartilham um ponto de fuga, o ponto de fuga é o mesmo no lado da caixa e no piso de azulejo;
Muitos grupos de linhas paralelas, cada um convergindo para um ponto de fuga diferente, como mostra a Figura 1(c). Se grupos de linhas paralelas se estenderem pelo mesmo plano na cena, seus pontos de fuga estarão na linha de fuga. A direção da linha de fuga é determinada pela rotação da lente em relação ao plano através do qual a linha paralela se cruza
Sombras
Surpreendentemente, a mesma geometria por trás do ponto de fuga também funciona para projetar sombras.
Esta restrição geométrica associada a sombras, objetos e luz mantém-se independentemente da localização e orientação da superfície em que a sombra é projetada, quer a fonte de luz esteja próxima (lâmpada de secretária) ou longe (o sol).
É claro que a análise assume que a cena é iluminada por uma única fonte de luz mestre, o que é evidente a partir da presença de apenas uma única sombra projetada por objeto.
No exemplo acima, a fonte de luz que ilumina a cena está na frente da lente, de modo que a projeção da fonte de luz está na metade superior do plano da imagem.
No entanto, se a luz estiver atrás da lente, a projeção da fonte de luz estará na metade inferior do plano da imagem. Devido a essa inversão, a sombra da restrição de objeto também deve ser invertida.
Portanto, a análise de sombra de projeção da imagem deve considerar três possibilidades:
(1) A luz está localizada na frente da lente, a projeção da fonte de luz está localizada na parte superior do plano da imagem, e a restrição é ancorada à sombra projetada e encerra o objeto;
(2) a luz está atrás da lente, e a fonte de luz é projetada na metade inferior do plano da imagem, restringindo ancorado ao objeto e envolvendo a sombra projetada;
(3) A luz está localizada diretamente acima ou abaixo do centro da lente, a projeção da fonte de luz está no infinito e as restrições se cruzarão no infinito. Se algum destes casos resultar na intersecção comum de todas as restrições, é fisicamente razoável lançar sombras.
Reflexão
A cena mostrada na Figura 2 abaixo mostra três caixas refletidas em um espelho plano.
A linha laranja representa o espelho, localizado no ponto médio entre os dois conjuntos de caixas. A linha amarela conecta os pontos correspondentes nas caixas reais e virtuais. Estas linhas são paralelas umas às outras e perpendiculares ao espelho.
Agora considere como essas linhas paralelas aparecem quando são sobrepostas na cena. Quando vistas do plano do espelho, as linhas paralelas não são mais paralelas. Em vez disso, devido à projeção da perspetiva, essas linhas paralelas convergem para um ponto, assim como linhas paralelas no mundo convergem para um ponto de fuga.
Como as linhas que conectam os pontos correspondentes na cena e seus reflexos são sempre paralelas, as linhas devem ter uma interseção comum na imagem para serem fisicamente plausíveis.
Análise de instância
Cada imagem (dentro de alguns pixels) captura com precisão a geometria da perspetiva do piso de azulejo como evidência de um ponto de fuga consistente (renderizado em azul). No entanto, o ponto de fuga de uma bancada paralela (renderizada em ciano) é geometricamente inconsistente com o ponto de fuga de uma bancada.
Alinhe os blocos de acordo. Mesmo que a bancada não seja paralela ao azulejo, o ponto de fuga ciano deve estar na linha de fuga (renderizada em vermelho) definida pelo ponto de fuga do piso de azulejo. Observe que, para a imagem no canto superior direito da Figura 3, as linhas horizontais no piso de azulejo são quase paralelas, de modo que os pontos de fuga correspondentes estão no infinito e, portanto, não se cruzam.
Embora os pontos de fuga nessas imagens sejam localmente consistentes, eles não são globalmente consistentes. Em cada uma das 25 imagens compostas da cozinha, foi encontrado o mesmo padrão.
Embora essas reflexões sejam visualmente justificadas, elas são geometricamente inconsistentes.
Ao contrário das sombras projetadas e geometria nas seções anteriores, DALL· E-2 é difícil de sintetizar reflexões razoáveis, presumivelmente porque tais reflexões são menos comuns em seu conjunto de dados de imagem de treinamento.
Com base nesses entendimentos das limitações das imagens geradas por IA, é muito útil determinar se a imagem é sintetizada pela IA através da deteção da consistência da imagem.
O reconhecimento de imagem é difícil, a IA supera a IA
Os geradores de imagem de IA estão em constante evolução.
No primeiro semestre do ano, Midjourney explodiu e foi capaz de gerar imagens realistas o suficiente, mas enganou muitas pessoas.
O papa de 86 anos usa um chapéu de melão branco, uma jaqueta branca e um colar de cruz de metal que está exposto, além de uma expressão séria.
Naquela época, assim que a foto foi divulgada, enganou a todos nas redes sociais, e foi freneticamente encaminhada por muitos internautas, e alguns até chamaram o papa de muito trendy.
Este incidente levou diretamente Musk, o cofundador da Apple, Stephen Wozniak, e outros líderes de tecnologia a pedir a suspensão da pesquisa e desenvolvimento de IA.
Embora a geração de IA seja divertida e conveniente, ela representa riscos para a indústria como um todo.
Se não for pequeno, será usado por pessoas com segundas intenções para espalhar informações falsas, infringir direitos de propriedade intelectual ou usá-lo para gerar "fotos de frutas" e assim por diante.
Nos próximos meses, a Midjourney lançará a versão V6 mais recente, que foi aperfeiçoada em termos de geração de imagens.
Outros geradores de imagem de IA também estão iterando rapidamente. Há algum tempo, a OpenAI acaba de lançar o DALL· E 3, ao mesmo tempo, a geração de imagens do Microsoft Bing também usou DALL· E 3。
Concurso de Ferramenta de Inspeção de IA
Agora, mais de uma dúzia de empresas forneceram ferramentas para identificar se uma imagem foi gerada por IA, e seus nomes incluem Sensity AI (deteção de deepfasity), Fictitious.AI (deteção de plágio), Originality.AI e muito mais.
A empresa de confiança e segurança de inteligência artificial Optic lançou um site "AI or Not".
Neste site, você pode carregar uma foto ou colar um URL de imagem, e o site determinará automaticamente se a foto foi gerada por IA. Não há limite para o número de imagens que pode carregar.
Andrey Doronichev, presidente-executivo da empresa, disse que as ferramentas de IA da Optic podem verificar cada imagem em busca de artefatos invisíveis ao olho humano, como mudanças de brilho e cor na imagem.
Surpreendentemente, a ferramenta tem uma taxa de precisão de 95%.
No entanto, com a atualização e iteração de ferramentas de geração de imagens de IA, como o Midjourney, a taxa de precisão de "AI or Not" caiu para 88,9%.
Por exemplo, na imagem do Papa, a IA acredita que há uma probabilidade de 87% de que os humanos o façam.
Na verdade, alguns internautas disseram que, se você olhar atentamente para esta imagem, encontrará sinais óbvios gerados pela inteligência artificial, incluindo várias áreas de detalhes obviamente borradas:
A mão aparentemente incompleta está tentando agarrar algo que não se assemelha muito a uma xícara de café com uma mancha ao lado
A cruz usada pelo Papa não tem a forma de um ângulo reto, mas também tem uma gravura de um Jesus sentado que parece ser esculpida em barro
Os óculos não combinam com as sombras do rosto
Todos esses pontos indicam que isso é gerado pela inteligência artificial. Ele apenas compreende a superfície da realidade, mas não as regras básicas que regem como os objetos físicos interagem.
A ferramenta de IA foi treinada em milhões de imagens do DALL-E, Stable Diffusion e Midjourney.
O CEO Kevin Guo disse que quando as pessoas compartilham imagens de IA, elas escolhem as imagens falsas mais realistas, para que as pessoas possam distinguir o que é real.
Como o Optic, o Hive não conseguiu detetar imagens do Bing Image Creator.
No entanto, essas ferramentas de deteção não estão estagnadas e serão atualizadas à medida que o modelo de imagem de IA for iterado.
Na verdade, o reconhecimento de imagem de IA pode não apenas contar com as ferramentas de deteção na indústria para completar, mas também configurar guarda-corpos ao treinar modelos.
Muitos geradores de imagens de inteligência artificial também têm uma "lista negra" que limita se algum conteúdo pode ser gerado.
Por exemplo, o Bing Image Creator sinaliza e bloqueia solicitações de usuários que pedem para criar imagens de figuras públicas conhecidas.
A Midjourney tem "moderadores humanos" e está lançando uma maneira de usar algoritmos para moderar as solicitações dos usuários.
E DALL· De acordo com o relatório técnico do E 3, quando você pede ao ChatGPT para gerar alguns "mapas de frutas", ou imagens envolvendo preto e branco, a entrada é diretamente reescrita.
** Adicione marca d'água à IA, grandes fabricantes estão fazendo **
Além disso, a marca d'água digital também é um dos meios importantes para melhorar a segurança da IA generativa, e gigantes da tecnologia como Microsoft e Google têm sido usados em produtos.
A Microsoft apresentou o DALL· na Conferência do Surface em setembro. E 3 abençoado com a capacidade do Bing de gerar imagens.
Ao mesmo tempo, para garantir que as imagens não sejam abusadas, a equipe da Microsoft usa métodos de criptografia para gerar marcas d'água invisíveis para cada imagem, incluindo a hora e a data de criação.
Qualquer pessoa pode clicar em cada imagem e identificar facilmente se ela foi gerada por IA.
Vale a pena mencionar que a marca d'água digital gerada pela Assinatura Estável não é afetada por operações destrutivas como cortar, comprimir, mudar de cor, etc., e pode ser rastreada até a fonte original da imagem.
Pode ser aplicado a modelos como difusão e GAN, como Difusão Estável.
O SynthID usa dois modelos de aprendizagem profunda, um para marca d'água e outro para reconhecimento. Eles podem ser treinados juntos em um conjunto de imagens diferentes.
O modelo combinado é otimizado para uma variedade de objetivos, incluindo a identificação correta do conteúdo com marca d'água e a melhoria da ocultação da marca d'água alinhando visualmente a marca d'água com o conteúdo original.
Amit Roy-Chowdhury, professor de engenharia elétrica e de computação da Universidade da Califórnia, Riverside, disse que, olhando atentamente para o fundo da imagem, podemos detetar melhor imagens falsas com nossos próprios olhos.
Recursos: