Mozaiklerden yüksek çözünürlüklü görüntülere kadar yapay zekanın görüntü oluşturma yeteneği güçlendi, ancak güzellik ile bozulma arasında nasıl bir denge kurulacak?
Görüntülerin daha iyi görünmesini sağlayan yapay zeka araçları genellikle görüntüde bozulmaya yol açarken, görüntülerin daha gerçekçi görünmesini sağlamak çoğu zaman güzellikten yoksundur.
Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur
Gerilim ve bilim kurgu çalışmalarında bu sahneyi sıklıkla görürüz: Bilgisayar ekranında bulanık bir fotoğraf görüntülenir ve ardından araştırmacı görüntünün iyileştirilmesini ister ve ardından görüntü sihirli bir şekilde netleşerek önemli ipuçlarını ortaya çıkarır.
Bu harika görünüyor, ancak onlarca yıldır tamamen kurgusal bir komploydu. Yapay zekanın üretken yeteneklerinin artmaya başladığı dönemde bile bunu yapmak zordu: Nvidia, "Görüntüye yakınlaştırırsanız bulanıklaşırdı. Çok fazla ayrıntı olurdu ama hepsi yanlış olurdu" diyor. derin öğrenme, Araştırmadan Sorumlu Başkan Yardımcısı Bryan Catanzaro'ya aittir.
Ancak araştırmacılar yakın zamanda yapay zeka algoritmalarını görüntü iyileştirme araçlarına dahil ederek süreci daha kolay ve güçlü hale getirmeye başladı ancak herhangi bir görüntüden alınabilecek verilerde hâlâ sınırlamalar var. Ancak araştırmacılar gelişmiş algoritmaların sınırlarını zorlamaya devam ettikçe, bu sınırlamalarla başa çıkmanın ve hatta bunların üstesinden gelmenin yeni yollarını buluyorlar.
Geçtiğimiz on yılda araştırmacılar, ayrıntılı ve etkileyici resimler üretebilen üretken rakip ağ (GAN) modellerini kullanarak görüntüleri geliştirmeye başladı.
İsrail'deki Teonion Teknoloji Enstitüsü'nden elektrik mühendisi Tomer Michaeli, "Görüntüler bir anda çok daha iyi görünüyordu" diyor. Ancak GAN tarafından oluşturulan görüntülerin, gelişmişliğin bir ölçüsü olan yüksek düzeyde bozulma gösterdiğini görünce de şaşırdı. Görüntülenen altta yatan gerçekliğe yakınlık. GAN'lar tarafından oluşturulan görüntüler güzel ve doğal görünüyor, ancak aslında bunlar yanlış ayrıntıları "kurgusallaştırıyor" veya "fantezileştiriyor" ve bu da yüksek derecede bozulmaya yol açıyor.
Michaeli, fotoğraf restorasyon alanının iki geniş kategoriye ayrıldığını gözlemliyor: Bunlardan birinde, çoğu GAN'lar tarafından oluşturulan güzel görüntüler sergileniyor. Diğeri verileri gösteriyor ancak pek fazla resim göstermiyor çünkü iyi görünmüyor.
2017 yılında, Michaeli ve yüksek lisans öğrencisi Yochai Blau, insanın öznel yargısıyla ilişkili algısal kalitenin bilinen ölçümlerini kullanarak, çeşitli görüntü iyileştirme algoritmalarının bozulma ve algısal kalite üzerindeki performansını daha resmi olarak araştırdı. Michaeli'nin beklediği gibi, bazı algoritmaların görsel kalitesi çok yüksekken, diğerleri çok düşük bozulmayla çok doğru sonuçlar veriyor. Ancak hiç kimse her iki dünyanın da en iyisini sunmuyor; birini diğerinden seçmek zorundasınız. Buna algısal bozulma değişimi denir.
Michaeli ayrıca diğer araştırmacılara, belirli bir bozulma düzeyinde en iyi görüntü kalitesini üreten, güzel resimlere yönelik algoritmalar ile iyi istatistiklere yönelik algoritmalar arasında adil bir karşılaştırmaya olanak tanıyan algoritmalar bulmaları konusunda meydan okudu. O zamandan bu yana yüzlerce yapay zeka araştırmacısı, Michaeli ve Blau'nun bu değiş tokuşu açıklayan makalesine atıfta bulunarak, algoritmalarının çarpıklığı ve algısal kalitesi hakkındaki endişelerini dile getirdi.
Bazen algısal bozulma değişiminin etkileri o kadar da korkutucu değildir. Örneğin Nvidia, yüksek çözünürlüklü ekranların bazı düşük çözünürlüklü görsel içerikleri iyi şekilde işleyemediğini tespit etti ve Şubat 2023'te video akışının kalitesini artırmak için derin öğrenmeyi kullanan bir aracı piyasaya sürdü. Bu durumda, Nvidia'nın mühendisleri, algoritmanın bir videonun çözünürlüğünü yükselttiğinde orijinal videoda bulunmayan bazı görsel ayrıntılar ürettiği gerçeğini kabul ederek, doğruluk yerine algısal kaliteyi seçti.
Catanzaro, "Model hayal ürünü. Tamamen spekülasyon" dedi. "Süper çözünürlüklü modelin tutarlı olduğu sürece çoğu zaman yanlış tahminde bulunmasının bir önemi yok."
*Bir fare beynindeki kan akışının görünümü (solda) ve görüntü kalitesini ve doğruluğunu iyileştirmek için yapay zeka araçlarını kullandıktan sonraki aynı görünüm. Kaynak: Junjie Yao, Xiaoyi Zhu, Duke Üniversitesi. *
Özellikle araştırma ve tıp alanındaki uygulamalar daha fazla doğruluk gerektirecektir. Duke Üniversitesi'nden biyomedikal mühendisi Junjie Yao, AI teknolojisi görüntülemede önemli ilerleme kaydetti, ancak "bazen aşırı uyum veya yanlış özellikler eklemek gibi istenmeyen yan etkilere sahip olabilir, bu nedenle son derece dikkatli bir şekilde ele alınması gerekir" dedi.
Geçen yıl makalesinde, algısal bozulma değişiminin doğru tarafında güvenli bir şekilde çalışırken, beyin kan akışı ve metabolizmasına ilişkin mevcut ölçümleri iyileştirmek için yapay zeka araçlarının nasıl kullanılabileceğini anlattı.
Bir görüntüden ne kadar veri çıkarılabileceğine ilişkin sınırlamaları aşmanın bir yolu, daha fazla görüntüdeki verileri basitçe birleştirmektir. Daha önce çevreyi uydu görüntüleri aracılığıyla inceleyen araştırmacılar, farklı kaynaklardan gelen görsel verileri entegre etme konusunda bazı ilerlemeler kaydetmişti: 2021'de Çin ve Birleşik Krallık'taki araştırmacılar, Kongo Havzası'ndaki ormansızlaşmayı daha iyi gözlemlemek için iki farklı uydu türünden gelen verileri birleştirdi. Kongo Havzası dünyanın en büyük ikinci tropikal yağmur ormanıdır ve biyolojik açıdan en çeşitli bölgelerden biridir. Araştırmacılar, onlarca yıldır ormansızlaşmayı ölçen iki Landsat uydusundan veri aldı ve görüntülerin çözünürlüğünü 30 metreden 10 metreye çıkarmak için derin öğrenme tekniklerini kullandı. Daha sonra bu görüntü dizisini, dedektör dizileri biraz farklı olan iki Sentinel-2 uydusundan gelen verilerle birleştirdi. Deneyleri, bu birleştirilmiş görüntünün "Sentinel-2 veya Landsat-7/8 görüntülerinin tek başına kullanılmasına kıyasla %11 ila %21 daha fazla rahatsız edici alanın tespitini mümkün kıldığını" gösteriyor.
Doğrudan bir buluş mümkün değilse Michaeli, bilginin kullanılabilirliğini katı bir şekilde sınırlandırmak için başka bir yöntem öneriyor. Düşük kaliteli bir görüntünün nasıl geliştirileceğine dair kesin bir cevap aramak yerine, modele orijinal görüntünün birden fazla farklı yorumu gösterilebilir. "Keşfedilebilir Süper Çözünürlük" makalesinde, bir görüntü iyileştirme aracının kullanıcıya nasıl birden fazla öneri sağlayabileceğini gösteriyor. Gri bir gömlek gibi görünen bir kişinin bulanık, düşük çözünürlüklü görüntüsü, gömleğin siyah beyaz dikey şeritler, yatay şeritler veya ekose olabileceği daha yüksek çözünürlüklü bir görüntü halinde yeniden yapılandırılabilir ve bunların hepsi eşit inandırıcılığa sahiptir.
Başka bir örnekte Michaeli, bir plakanın düşük kaliteli fotoğrafını çekti ve plakadaki 1 rakamının 0'a en çok benzediğini göstermek için yapay zeka görüntü geliştirmeyi kullandı. Ancak görüntü Michaeli tarafından geliştirilen farklı ve daha açık uçlu bir algoritmayla işlendiğinde sayının 0, 1 veya 8 olma ihtimali eşit görünüyordu. Bu yaklaşım, yanlışlıkla sayının 0 olduğu sonucuna varmadan diğer sayıların elenmesine yardımcı olabilir.
Bu illüzyonları hafifletebiliriz ama o güçlü, suç çözücü "yükseltme" düğmesi bir hayal olarak kalıyor.
Farklı alanlarda, çeşitli disiplinler algısal çarpıklık değişimini kendi yöntemleriyle ele alıyor.Yapay zeka görüntülerinden ne kadar bilgi çıkarılabileceği ve bu görüntülere ne ölçüde güvenilebileceği temel sorular olmaya devam ediyor.
Michaeli, "Algoritmanın bu güzel görüntüleri ortaya çıkarmak için sadece ayrıntıları uydurduğunu aklımızda tutmalıyız" dedi.
Orijinal bağlantı:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Mozaiklerden yüksek çözünürlüklü görüntülere kadar yapay zekanın görüntü oluşturma yeteneği güçlendi, ancak güzellik ile bozulma arasında nasıl bir denge kurulacak?
Gerilim ve bilim kurgu çalışmalarında bu sahneyi sıklıkla görürüz: Bilgisayar ekranında bulanık bir fotoğraf görüntülenir ve ardından araştırmacı görüntünün iyileştirilmesini ister ve ardından görüntü sihirli bir şekilde netleşerek önemli ipuçlarını ortaya çıkarır.
Bu harika görünüyor, ancak onlarca yıldır tamamen kurgusal bir komploydu. Yapay zekanın üretken yeteneklerinin artmaya başladığı dönemde bile bunu yapmak zordu: Nvidia, "Görüntüye yakınlaştırırsanız bulanıklaşırdı. Çok fazla ayrıntı olurdu ama hepsi yanlış olurdu" diyor. derin öğrenme, Araştırmadan Sorumlu Başkan Yardımcısı Bryan Catanzaro'ya aittir.
Ancak araştırmacılar yakın zamanda yapay zeka algoritmalarını görüntü iyileştirme araçlarına dahil ederek süreci daha kolay ve güçlü hale getirmeye başladı ancak herhangi bir görüntüden alınabilecek verilerde hâlâ sınırlamalar var. Ancak araştırmacılar gelişmiş algoritmaların sınırlarını zorlamaya devam ettikçe, bu sınırlamalarla başa çıkmanın ve hatta bunların üstesinden gelmenin yeni yollarını buluyorlar.
Geçtiğimiz on yılda araştırmacılar, ayrıntılı ve etkileyici resimler üretebilen üretken rakip ağ (GAN) modellerini kullanarak görüntüleri geliştirmeye başladı.
İsrail'deki Teonion Teknoloji Enstitüsü'nden elektrik mühendisi Tomer Michaeli, "Görüntüler bir anda çok daha iyi görünüyordu" diyor. Ancak GAN tarafından oluşturulan görüntülerin, gelişmişliğin bir ölçüsü olan yüksek düzeyde bozulma gösterdiğini görünce de şaşırdı. Görüntülenen altta yatan gerçekliğe yakınlık. GAN'lar tarafından oluşturulan görüntüler güzel ve doğal görünüyor, ancak aslında bunlar yanlış ayrıntıları "kurgusallaştırıyor" veya "fantezileştiriyor" ve bu da yüksek derecede bozulmaya yol açıyor.
Michaeli, fotoğraf restorasyon alanının iki geniş kategoriye ayrıldığını gözlemliyor: Bunlardan birinde, çoğu GAN'lar tarafından oluşturulan güzel görüntüler sergileniyor. Diğeri verileri gösteriyor ancak pek fazla resim göstermiyor çünkü iyi görünmüyor.
2017 yılında, Michaeli ve yüksek lisans öğrencisi Yochai Blau, insanın öznel yargısıyla ilişkili algısal kalitenin bilinen ölçümlerini kullanarak, çeşitli görüntü iyileştirme algoritmalarının bozulma ve algısal kalite üzerindeki performansını daha resmi olarak araştırdı. Michaeli'nin beklediği gibi, bazı algoritmaların görsel kalitesi çok yüksekken, diğerleri çok düşük bozulmayla çok doğru sonuçlar veriyor. Ancak hiç kimse her iki dünyanın da en iyisini sunmuyor; birini diğerinden seçmek zorundasınız. Buna algısal bozulma değişimi denir.
Michaeli ayrıca diğer araştırmacılara, belirli bir bozulma düzeyinde en iyi görüntü kalitesini üreten, güzel resimlere yönelik algoritmalar ile iyi istatistiklere yönelik algoritmalar arasında adil bir karşılaştırmaya olanak tanıyan algoritmalar bulmaları konusunda meydan okudu. O zamandan bu yana yüzlerce yapay zeka araştırmacısı, Michaeli ve Blau'nun bu değiş tokuşu açıklayan makalesine atıfta bulunarak, algoritmalarının çarpıklığı ve algısal kalitesi hakkındaki endişelerini dile getirdi.
Bazen algısal bozulma değişiminin etkileri o kadar da korkutucu değildir. Örneğin Nvidia, yüksek çözünürlüklü ekranların bazı düşük çözünürlüklü görsel içerikleri iyi şekilde işleyemediğini tespit etti ve Şubat 2023'te video akışının kalitesini artırmak için derin öğrenmeyi kullanan bir aracı piyasaya sürdü. Bu durumda, Nvidia'nın mühendisleri, algoritmanın bir videonun çözünürlüğünü yükselttiğinde orijinal videoda bulunmayan bazı görsel ayrıntılar ürettiği gerçeğini kabul ederek, doğruluk yerine algısal kaliteyi seçti.
Catanzaro, "Model hayal ürünü. Tamamen spekülasyon" dedi. "Süper çözünürlüklü modelin tutarlı olduğu sürece çoğu zaman yanlış tahminde bulunmasının bir önemi yok."
Özellikle araştırma ve tıp alanındaki uygulamalar daha fazla doğruluk gerektirecektir. Duke Üniversitesi'nden biyomedikal mühendisi Junjie Yao, AI teknolojisi görüntülemede önemli ilerleme kaydetti, ancak "bazen aşırı uyum veya yanlış özellikler eklemek gibi istenmeyen yan etkilere sahip olabilir, bu nedenle son derece dikkatli bir şekilde ele alınması gerekir" dedi.
Geçen yıl makalesinde, algısal bozulma değişiminin doğru tarafında güvenli bir şekilde çalışırken, beyin kan akışı ve metabolizmasına ilişkin mevcut ölçümleri iyileştirmek için yapay zeka araçlarının nasıl kullanılabileceğini anlattı.
Bir görüntüden ne kadar veri çıkarılabileceğine ilişkin sınırlamaları aşmanın bir yolu, daha fazla görüntüdeki verileri basitçe birleştirmektir. Daha önce çevreyi uydu görüntüleri aracılığıyla inceleyen araştırmacılar, farklı kaynaklardan gelen görsel verileri entegre etme konusunda bazı ilerlemeler kaydetmişti: 2021'de Çin ve Birleşik Krallık'taki araştırmacılar, Kongo Havzası'ndaki ormansızlaşmayı daha iyi gözlemlemek için iki farklı uydu türünden gelen verileri birleştirdi. Kongo Havzası dünyanın en büyük ikinci tropikal yağmur ormanıdır ve biyolojik açıdan en çeşitli bölgelerden biridir. Araştırmacılar, onlarca yıldır ormansızlaşmayı ölçen iki Landsat uydusundan veri aldı ve görüntülerin çözünürlüğünü 30 metreden 10 metreye çıkarmak için derin öğrenme tekniklerini kullandı. Daha sonra bu görüntü dizisini, dedektör dizileri biraz farklı olan iki Sentinel-2 uydusundan gelen verilerle birleştirdi. Deneyleri, bu birleştirilmiş görüntünün "Sentinel-2 veya Landsat-7/8 görüntülerinin tek başına kullanılmasına kıyasla %11 ila %21 daha fazla rahatsız edici alanın tespitini mümkün kıldığını" gösteriyor.
Doğrudan bir buluş mümkün değilse Michaeli, bilginin kullanılabilirliğini katı bir şekilde sınırlandırmak için başka bir yöntem öneriyor. Düşük kaliteli bir görüntünün nasıl geliştirileceğine dair kesin bir cevap aramak yerine, modele orijinal görüntünün birden fazla farklı yorumu gösterilebilir. "Keşfedilebilir Süper Çözünürlük" makalesinde, bir görüntü iyileştirme aracının kullanıcıya nasıl birden fazla öneri sağlayabileceğini gösteriyor. Gri bir gömlek gibi görünen bir kişinin bulanık, düşük çözünürlüklü görüntüsü, gömleğin siyah beyaz dikey şeritler, yatay şeritler veya ekose olabileceği daha yüksek çözünürlüklü bir görüntü halinde yeniden yapılandırılabilir ve bunların hepsi eşit inandırıcılığa sahiptir.
Bu illüzyonları hafifletebiliriz ama o güçlü, suç çözücü "yükseltme" düğmesi bir hayal olarak kalıyor.
Farklı alanlarda, çeşitli disiplinler algısal çarpıklık değişimini kendi yöntemleriyle ele alıyor.Yapay zeka görüntülerinden ne kadar bilgi çıkarılabileceği ve bu görüntülere ne ölçüde güvenilebileceği temel sorular olmaya devam ediyor.
Michaeli, "Algoritmanın bu güzel görüntüleri ortaya çıkarmak için sadece ayrıntıları uydurduğunu aklımızda tutmalıyız" dedi.
Orijinal bağlantı: