De mosaicos a imagens de alta definição, a capacidade da IA de gerar imagens tornou-se mais forte, mas como conseguir um equilíbrio entre beleza e distorção?
Ferramentas de IA que melhoram a aparência das imagens muitas vezes levam à distorção da imagem, enquanto fazer com que as imagens pareçam mais reais muitas vezes carece de beleza. Como avaliar essa questão?
Fonte da imagem: gerada por Unbounded AI
Em obras de suspense e ficção científica, muitas vezes vemos esta cena: uma foto borrada é exibida na tela do computador, e então o investigador pede para realçar a imagem, e então a imagem magicamente fica clara, revelando pistas importantes.
Parece ótimo, mas é um enredo completamente fictício há décadas. Foi difícil de fazer mesmo durante o período em que as capacidades geradoras de IA começaram a crescer: "Se você apenas aumentasse o zoom na imagem, ela ficaria desfocada. Haveria muitos detalhes, mas estaria tudo errado", aplica a Nvidia. aprendizagem profunda disse Bryan Catanzaro, vice-presidente de pesquisa.
No entanto, os investigadores começaram recentemente a incorporar algoritmos de IA em ferramentas de melhoramento de imagem, tornando o processo mais fácil e poderoso, mas ainda existem limitações aos dados que podem ser recuperados de qualquer imagem. Mas à medida que os pesquisadores continuam a ampliar os limites dos algoritmos aprimorados, eles estão encontrando novas maneiras de lidar com essas limitações e até mesmo de superá-las.
Na última década, os pesquisadores começaram a aprimorar imagens usando modelos de redes adversárias generativas (GAN), que são capazes de produzir imagens detalhadas e impressionantes.
"As imagens de repente pareciam muito melhores", diz Tomer Michaeli, engenheiro elétrico do Instituto de Tecnologia Teonion, em Israel. Mas também ficou surpreso ao descobrir que as imagens geradas pelo GAN apresentavam altos níveis de distorção, uma medida da melhoria imagem.Proximidade com a realidade subjacente que está sendo exibida. As imagens geradas pelos GANs parecem lindas e naturais, mas na verdade estão “ficcionalizando” ou “fantasiando” detalhes imprecisos, o que leva a um alto grau de distorção.
Michaeli observa que o campo da restauração de fotos se enquadra em duas grandes categorias: Uma mostra belas imagens, muitas das quais são geradas por GANs. O outro mostra os dados, mas não muitas fotos porque não parece bom.
Em 2017, Michaeli e seu aluno de pós-graduação Yochai Blau exploraram mais formalmente o desempenho de vários algoritmos de aprimoramento de imagem em distorção e qualidade perceptiva, usando medidas conhecidas de qualidade perceptiva que se correlacionam com o julgamento subjetivo humano. Como Michaeli esperava, a qualidade visual de alguns algoritmos é muito alta, enquanto outros são muito precisos com baixíssima distorção. Mas ninguém oferece o melhor dos dois mundos, é preciso escolher um em vez do outro. Isso é chamado de trade-off de distorção perceptual.
Michaeli também desafiou outros pesquisadores a criar algoritmos que produzissem a melhor qualidade de imagem em um determinado nível de distorção, permitindo uma comparação justa entre algoritmos para imagens bonitas e algoritmos para boas estatísticas. Desde então, centenas de investigadores de IA levantaram preocupações sobre a distorção e a qualidade perceptiva dos seus algoritmos, citando o artigo de Michaeli e Blau que descreve esta compensação.
Às vezes, os efeitos da compensação da distorção perceptiva não são tão assustadores. Por exemplo, a Nvidia descobriu que as telas de alta definição não conseguiam renderizar bem alguns conteúdos visuais de baixa definição, então, em fevereiro de 2023, lançou uma ferramenta que usa aprendizado profundo para melhorar a qualidade do streaming de vídeos. Neste caso, os engenheiros da Nvidia escolheram a qualidade perceptual em vez da precisão, aceitando o facto de que quando o algoritmo aumenta a resolução de um vídeo, gera alguns detalhes visuais não presentes no vídeo original.
“A modelo está fantasiando. É pura especulação”, disse Catanzaro. “Não importa se o modelo de super-resolução errar na maioria das vezes, desde que seja consistente.”
*Visão do fluxo sanguíneo no cérebro de um rato (esquerda) e a mesma visão após usar ferramentas de IA para melhorar a qualidade e a precisão da imagem. Fonte: Junjie Yao, Xiaoyi Zhu, Universidade Duke. *
Em particular, as aplicações na investigação e na medicina exigirão maior precisão. A tecnologia de IA fez progressos significativos em imagens, mas “às vezes tem efeitos colaterais indesejáveis, como overfitting ou adição de características falsas, por isso precisa ser tratada com extrema cautela”, disse Junjie Yao, engenheiro biomédico da Duke University.
No ano passado, ele descreveu em seu artigo como as ferramentas de IA poderiam ser usadas para melhorar as medições existentes do fluxo sanguíneo cerebral e do metabolismo, ao mesmo tempo em que operavam com segurança no lado preciso da compensação pela distorção perceptual.
Uma maneira de contornar as limitações de quantos dados podem ser extraídos de uma imagem é simplesmente mesclar dados de mais imagens. Anteriormente, os investigadores que estudavam o ambiente através de imagens de satélite fizeram alguns progressos na integração de dados visuais de diferentes fontes: Em 2021, investigadores na China e no Reino Unido fundiram dados de dois tipos diferentes de satélites para melhor observar a desflorestação na Bacia do Congo. A Bacia do Congo é a segunda maior floresta tropical do mundo e uma das regiões com maior diversidade biológica. Os pesquisadores pegaram dados de dois satélites Landsat, que medem o desmatamento há décadas, e usaram técnicas de aprendizagem profunda para melhorar a resolução das imagens de 30 para 10 metros. Eles então fundiram esse conjunto de imagens com dados de dois satélites Sentinel-2, que possuem conjuntos de detectores ligeiramente diferentes. Seus experimentos mostram que esta imagem combinada “permite a detecção de 11% a 21% mais áreas perturbadas do que quando usadas apenas imagens Sentinel-2 ou Landsat-7/8”.
Se não for possível um avanço directo, Michaeli propõe outro método para limitar fortemente a disponibilidade de informação. Em vez de buscar uma resposta definitiva sobre como aprimorar uma imagem de baixa qualidade, o modelo pode apresentar múltiplas interpretações diferentes da imagem original. No artigo “Super Resolução Explorável”, ele mostra como uma ferramenta de aprimoramento de imagem pode fornecer diversas sugestões ao usuário. Uma imagem borrada e de baixa resolução de uma pessoa vestindo o que parece ser uma camisa cinza pode ser reconstruída em uma imagem de alta resolução na qual a camisa pode ter listras verticais pretas e brancas, listras horizontais ou xadrez, todas com igual plausibilidade.
Em outro exemplo, Michaeli tirou uma foto de baixa qualidade de uma placa de carro e usou o aprimoramento de imagem de IA para mostrar que o número 1 na placa mais se assemelhava a um 0. Mas quando a imagem foi processada através de um algoritmo diferente e mais aberto desenvolvido por Michaeli, o número parecia igualmente provável de ser 0, 1 ou 8. Esta abordagem pode ajudar a descartar outros números sem concluir erroneamente que o número é 0.
Podemos mitigar estas ilusões, mas esse poderoso botão de “impulso” para a resolução de crimes continua a ser um sonho.
Em diferentes campos, várias disciplinas abordam o compromisso de distorção perceptiva à sua própria maneira.Quanta informação pode ser extraída de imagens de IA e até que ponto estas imagens podem ser confiáveis continuam a ser questões centrais.
“Devemos ter em mente que o algoritmo está apenas inventando os detalhes para produzir essas belas imagens”, disse Michaeli.
Link original:
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
De mosaicos a imagens de alta definição, a capacidade da IA de gerar imagens tornou-se mais forte, mas como conseguir um equilíbrio entre beleza e distorção?
Em obras de suspense e ficção científica, muitas vezes vemos esta cena: uma foto borrada é exibida na tela do computador, e então o investigador pede para realçar a imagem, e então a imagem magicamente fica clara, revelando pistas importantes.
Parece ótimo, mas é um enredo completamente fictício há décadas. Foi difícil de fazer mesmo durante o período em que as capacidades geradoras de IA começaram a crescer: "Se você apenas aumentasse o zoom na imagem, ela ficaria desfocada. Haveria muitos detalhes, mas estaria tudo errado", aplica a Nvidia. aprendizagem profunda disse Bryan Catanzaro, vice-presidente de pesquisa.
No entanto, os investigadores começaram recentemente a incorporar algoritmos de IA em ferramentas de melhoramento de imagem, tornando o processo mais fácil e poderoso, mas ainda existem limitações aos dados que podem ser recuperados de qualquer imagem. Mas à medida que os pesquisadores continuam a ampliar os limites dos algoritmos aprimorados, eles estão encontrando novas maneiras de lidar com essas limitações e até mesmo de superá-las.
Na última década, os pesquisadores começaram a aprimorar imagens usando modelos de redes adversárias generativas (GAN), que são capazes de produzir imagens detalhadas e impressionantes.
"As imagens de repente pareciam muito melhores", diz Tomer Michaeli, engenheiro elétrico do Instituto de Tecnologia Teonion, em Israel. Mas também ficou surpreso ao descobrir que as imagens geradas pelo GAN apresentavam altos níveis de distorção, uma medida da melhoria imagem.Proximidade com a realidade subjacente que está sendo exibida. As imagens geradas pelos GANs parecem lindas e naturais, mas na verdade estão “ficcionalizando” ou “fantasiando” detalhes imprecisos, o que leva a um alto grau de distorção.
Michaeli observa que o campo da restauração de fotos se enquadra em duas grandes categorias: Uma mostra belas imagens, muitas das quais são geradas por GANs. O outro mostra os dados, mas não muitas fotos porque não parece bom.
Em 2017, Michaeli e seu aluno de pós-graduação Yochai Blau exploraram mais formalmente o desempenho de vários algoritmos de aprimoramento de imagem em distorção e qualidade perceptiva, usando medidas conhecidas de qualidade perceptiva que se correlacionam com o julgamento subjetivo humano. Como Michaeli esperava, a qualidade visual de alguns algoritmos é muito alta, enquanto outros são muito precisos com baixíssima distorção. Mas ninguém oferece o melhor dos dois mundos, é preciso escolher um em vez do outro. Isso é chamado de trade-off de distorção perceptual.
Michaeli também desafiou outros pesquisadores a criar algoritmos que produzissem a melhor qualidade de imagem em um determinado nível de distorção, permitindo uma comparação justa entre algoritmos para imagens bonitas e algoritmos para boas estatísticas. Desde então, centenas de investigadores de IA levantaram preocupações sobre a distorção e a qualidade perceptiva dos seus algoritmos, citando o artigo de Michaeli e Blau que descreve esta compensação.
Às vezes, os efeitos da compensação da distorção perceptiva não são tão assustadores. Por exemplo, a Nvidia descobriu que as telas de alta definição não conseguiam renderizar bem alguns conteúdos visuais de baixa definição, então, em fevereiro de 2023, lançou uma ferramenta que usa aprendizado profundo para melhorar a qualidade do streaming de vídeos. Neste caso, os engenheiros da Nvidia escolheram a qualidade perceptual em vez da precisão, aceitando o facto de que quando o algoritmo aumenta a resolução de um vídeo, gera alguns detalhes visuais não presentes no vídeo original.
“A modelo está fantasiando. É pura especulação”, disse Catanzaro. “Não importa se o modelo de super-resolução errar na maioria das vezes, desde que seja consistente.”
Em particular, as aplicações na investigação e na medicina exigirão maior precisão. A tecnologia de IA fez progressos significativos em imagens, mas “às vezes tem efeitos colaterais indesejáveis, como overfitting ou adição de características falsas, por isso precisa ser tratada com extrema cautela”, disse Junjie Yao, engenheiro biomédico da Duke University.
No ano passado, ele descreveu em seu artigo como as ferramentas de IA poderiam ser usadas para melhorar as medições existentes do fluxo sanguíneo cerebral e do metabolismo, ao mesmo tempo em que operavam com segurança no lado preciso da compensação pela distorção perceptual.
Uma maneira de contornar as limitações de quantos dados podem ser extraídos de uma imagem é simplesmente mesclar dados de mais imagens. Anteriormente, os investigadores que estudavam o ambiente através de imagens de satélite fizeram alguns progressos na integração de dados visuais de diferentes fontes: Em 2021, investigadores na China e no Reino Unido fundiram dados de dois tipos diferentes de satélites para melhor observar a desflorestação na Bacia do Congo. A Bacia do Congo é a segunda maior floresta tropical do mundo e uma das regiões com maior diversidade biológica. Os pesquisadores pegaram dados de dois satélites Landsat, que medem o desmatamento há décadas, e usaram técnicas de aprendizagem profunda para melhorar a resolução das imagens de 30 para 10 metros. Eles então fundiram esse conjunto de imagens com dados de dois satélites Sentinel-2, que possuem conjuntos de detectores ligeiramente diferentes. Seus experimentos mostram que esta imagem combinada “permite a detecção de 11% a 21% mais áreas perturbadas do que quando usadas apenas imagens Sentinel-2 ou Landsat-7/8”.
Se não for possível um avanço directo, Michaeli propõe outro método para limitar fortemente a disponibilidade de informação. Em vez de buscar uma resposta definitiva sobre como aprimorar uma imagem de baixa qualidade, o modelo pode apresentar múltiplas interpretações diferentes da imagem original. No artigo “Super Resolução Explorável”, ele mostra como uma ferramenta de aprimoramento de imagem pode fornecer diversas sugestões ao usuário. Uma imagem borrada e de baixa resolução de uma pessoa vestindo o que parece ser uma camisa cinza pode ser reconstruída em uma imagem de alta resolução na qual a camisa pode ter listras verticais pretas e brancas, listras horizontais ou xadrez, todas com igual plausibilidade.
Podemos mitigar estas ilusões, mas esse poderoso botão de “impulso” para a resolução de crimes continua a ser um sonho.
Em diferentes campos, várias disciplinas abordam o compromisso de distorção perceptiva à sua própria maneira.Quanta informação pode ser extraída de imagens de IA e até que ponto estas imagens podem ser confiáveis continuam a ser questões centrais.
“Devemos ter em mente que o algoritmo está apenas inventando os detalhes para produzir essas belas imagens”, disse Michaeli.
Link original: