Orijinallik muhteşem. Google ve Cornell, gerçek görüntü tamamlama teknolojisi RealFill'i öneriyor

2023-10-01 07:47:27

İyi görünümlü bir fotoğraf elde etmek giderek daha kolay hale geliyor.

Tatillerde seyahat ederken fotoğraf çekmek şarttır. Ancak manzara noktalarında çekilen fotoğrafların çoğu az çok hüzün vericidir, ya arka planda fazlalık vardır ya da eksiktir.

Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur

"Mükemmel" bir imaj elde etmek CV araştırmacılarının uzun vadeli hedeflerinden biri olmuştur. Son zamanlarda, Google Research ve Cornell Üniversitesi'nden araştırmacılar, bir "Gerçek Görüntü Tamamlama" teknolojisi (görüntü tamamlamaya yönelik üretken bir model olan RealFill) önermek için iş birliği yaptı.

RealFill modellerinin avantajı, hedef görüntüyle hizalanması gerekmeyen ve hatta izleme açısı, aydınlatma koşulları, kamera açıklığı veya görüntü stili açısından büyük farklılıklar gösterebilen az sayıda sahne referans görüntüsüyle kişiselleştirilebilmesidir. . Kişiselleştirme tamamlandıktan sonra RealFill, hedef görüntüyü orijinal sahneye sadık kalarak görsel açıdan ilgi çekici içerikle tamamlayabilir.

* Kağıt bağlantısı: *Proje sayfası:

İç boyama ve dış boyama modelleri görüntünün bilinmeyen alanlarında yüksek kaliteli ve makul görüntü içeriği oluşturabilen teknolojilerdir.Ancak bu modellerin oluşturduğu içerik, bu modeller gerçek sahneler bağlamında çalıştığı için zorunlu olarak gerçekçi değildir.Bilgi eksiklikleri vardır. . Buna karşılık RealFill, orada "olması gereken" içerik oluşturarak görüntü tamamlama sonuçlarını daha gerçekçi hale getirir.

Yazarlar makalede yeni bir görüntü tamamlama problemi tanımladıklarını belirttiler: "Gerçek Görüntü Tamamlama". Geleneksel üretken görüntü restorasyonundan farklı olarak (eksik alanın yerini alan içerik, orijinal sahneyle tutarsız olabilir), gerçek görüntü tamamlamanın amacı, "görünmesi gereken" içeriği kullanarak, tamamlanmış içeriği orijinal sahneye mümkün olduğunca sadık kılmaktır. Hedef görseli "orada olabilecek" içerikle tamamlayın.

Yazarlar, RealFill'in, sürece daha fazla koşul ekleyerek (yani referans görüntüler ekleyerek), üretken görüntü iç boyama modellerinin ifade gücünü genişleten ilk yöntem olduğunu belirtmektedir.

RealFill, çeşitli ve zorlu senaryoları kapsayan yeni bir görüntü tamamlama kıyaslamasında mevcut yöntemlerden önemli ölçüde daha iyi performans gösteriyor.

yöntem

RealFill'in amacı, belirli bir hedef görüntünün eksik kısımlarını tamamlamak için mümkün olduğunca fazla orijinalliği korumak için az sayıda referans görüntü kullanmaktır. Spesifik olarak, size en fazla 5 referans görsel ve kabaca aynı sahneyi yakalayan (ancak farklı bir düzen veya görünüme sahip olabilecek) bir hedef görsel verilir.

Araştırmacılar, belirli bir sahne için öncelikle referans ve hedef görüntüler üzerinde önceden eğitilmiş bir iç boyama yayılma modeline ince ayar yaparak kişiselleştirilmiş bir üretken model oluşturuyor. Bu ince ayar süreci, ince ayarlı modelin yalnızca iyi görüntü önceliklerini korumakla kalmayıp aynı zamanda giriş görüntüsündeki sahne içeriğini, aydınlatmayı ve stili de öğrenmesini sağlayacak şekilde tasarlanmıştır. Bu ince ayarlı model daha sonra standart bir difüzyon örnekleme süreci yoluyla hedef görüntüdeki eksik bölgeleri doldurmak için kullanılır.

Pratik uygulama değeri açısından, bu modelin özellikle hedef görüntünün ve referans görüntünün çok farklı bakış açılarına, çevre koşullarına, kamera açıklıklarına, görüntü stillerine ve hatta hareketlere sahip olabileceği daha zorlu, kısıtlamasız duruma odaklandığını belirtmek gerekir. Nesne.

Deneysel sonuçlar

RealFill, soldaki referans görüntüyü temel alarak sağdaki hedef görüntüyü genişletebilir (kırpmayı kaldırabilir) veya onarabilir (iç boyama).Oluşturulan sonuç yalnızca görsel olarak çekici olmakla kalmaz, aynı zamanda referans görüntü ve referans görüntü olsa bile referans görüntüyle de tutarlıdır. Hedef görüntü aynı bakış noktasındaysa diyafram açıklığı, aydınlatma, görüntü stili ve nesne hareketinde büyük farklılıklar vardır.

RealFill modeli çıktı efekti. Solda bir referans görüntü verildiğinde, RealFill sağdaki karşılık gelen hedef görüntüyü genişletebilir. Beyaz kutunun içindeki alanlar ağa bilinen pikseller olarak sunulurken, beyaz kutunun dışındaki alanlar oluşturulur. Sonuçlar, RealFill'in, referans görüntü ile hedef görüntü arasında bakış açısı, açıklık, aydınlatma, görüntü stili ve nesne hareketi dahil olmak üzere büyük farklılıklar olsa bile referans görüntüye sadık yüksek kaliteli görüntüler oluşturabildiğini göstermektedir. Kaynak: Makale

Kontrollü deney

Araştırmacılar RealFill modelini diğer temel yöntemlerle karşılaştırdılar. Karşılaştırıldığında, RealFill yüksek kaliteli sonuçlar üretir ve sahne doğruluğu ve referans görüntülerle tutarlılık açısından daha iyi performans gösterir.

Örnekle Boyama, yalnızca yüksek düzeyde anlamsal bilgileri yakalayabilen CLIP yerleştirmeye dayandığından yüksek sahne doğruluğu elde edemez.

Stabil Difüzyonlu İç Boyama, sınırlı ifade yetenekleri nedeniyle görünüşte makul sonuçlar üretebilse de, nihai oluşturulan sonuçlar referans görüntüyle tutarlı değildir.

RealFill'in diğer iki temel yöntemle karşılaştırılması. Şeffaf beyaz bir maskenin kapladığı alan, hedef görüntünün değiştirilmemiş kısmıdır. Kaynak: realfill.github.io

Sınırlamalar

Araştırmacılar ayrıca RealFill modelinin işlem hızı, bakış açısı değişikliklerini yönetme yeteneği ve temel model için zorlayıcı olan durumlarla başa çıkma yeteneği dahil olmak üzere bazı potansiyel sorunlarını ve sınırlamalarını da tartıştı. Özellikle:

RealFill, giriş görüntüsünde degrade tabanlı bir ince ayar işlemi gerektirir ve bu da çalışmasını nispeten yavaşlatır.

Referans görüntü ile hedef görüntü arasındaki bakış açısı değişikliği çok büyük olduğunda RealFill, özellikle tek bir referans görüntü olduğunda genellikle 3D sahneyi geri yükleyemez.

RealFill temel olarak önceden eğitilmiş temel modelden devralınan görüntü önceliklerine dayandığından, metni iyi işleyemeyen kararlı dağıtım modelleri gibi temel model için zorlayıcı olan durumların üstesinden gelemez.

Son olarak yazar, işbirliği yapanlara şükranlarını ifade ediyor:

Rundi Wu, Qianqian Wang, Viraj Shah, Ethan Weber, Zhengqi Li, Kyle Genova, Boyang Deng, Maya Goldenberg, Noah Snavely, Ben Poole, Ben Mildenhall, Alex Rav-Acha, Pratul Srinivasan, Dor Verbin ve Değerli tartışmaları ve geri bildirimleri için Jon Barron'a ve ayrıca değerlendirme veri setine katkılarından dolayı Zeya Peng, Rundi Wu ve Shan Nan'a teşekkür ederiz. Projeyle ilgili geri bildirimleri ve destekleri için Jason Baldridge, Kihyuk Sohn, Kathy Meier-Hellstern ve Nicole Brichtova'ya özellikle minnettarız.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
1/3
1Gate Launchpad List IKA
45k Popularity
2ETH Back to $3,800
2k Popularity
3Tariff Deal New Update
2k Popularity
4Stablecoin Regulation
306 Popularity
5Gate ETH 10th Anniversary Celebration
21k Popularity

sitemap