Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur
Bak, hafif bir çekişle gül hareket etmeye başlıyor.
Yapraklarını sola sürükleyen çam ağacı da aynı yöne doğru hareket etti.
Dünya üzerinde bir anda hayata çekilebilecek çeşitli nesnelerin resimleri de bulunmaktadır.
Bu, Google ekibinin ellerinizi her şeyi kontrol edebilen ve tek dokunuşla hareket ettirebilen "sihirli altın parmaklara" dönüştüren en son araştırmasıdır.
Bu yazıda Google, önce görüntü alanını modelleyen ve ardından modeli "nöral rastgele hareket dokusunu" tahmin edecek şekilde eğiten "Üretici Görüntü Dinamiği"ni önerdi.
Sonunda uygulandı ve tek bir görüntüyle etkileşime girilerek sonsuz bir video döngüsü bile oluşturulabildi.
Gelecekte sanatçıların hayal gücü artık geleneksel çerçevelerle sınırlı olmayacak ve bu dinamik görüntü alanında her şey mümkün olacak.
Resimdeki her şey canlanıyor
Dünyadaki her şeyin hareketi çok modludur.
Bahçede asılı duran giysiler rüzgarla ileri geri sallanıyordu.
Sokakta asılı duran büyük kırmızı fenerler havada sallanıyordu.
Perdenin yanında uyuyan bir kedi yavrusu da var, karnı yukarı aşağı nefes alıp veriyor, o kadar tembel ki.
Bu hareketler genellikle tahmin edilemez: Mumlar belirli bir şekilde yanar, ağaçlar rüzgarda sallanır, yapraklar hışırdar...
Bir fotoğrafı ellerine alan araştırmacılar, fotoğraf çekildiğinde fotoğrafın nasıl hareket ettiğini hayal edebilirler.
Üretken modellerin, özellikle de yayılma modellerinin mevcut gelişimi göz önüne alındığında, oldukça zengin ve karmaşık dağılımları modellemek mümkündür.
Bu, metinden keyfi olarak gerçekçi görüntüler oluşturmak gibi daha önce imkansız olan birçok uygulamayı mümkün kılar. Difüzyon modeli görüntü alanında faydalı olmasının yanı sıra video alanını modellemek için de kullanılabilir.
Bu çalışmadaki Google ekibi bundan hareketle, görüntü alanındaki sahne hareketinin üretken bir önselliğini, yani tek bir görüntüdeki tüm piksellerin hareketini modelledi.
Model, çok sayıda gerçek video dizisinden otomatik olarak çıkarılan hareket yörüngelerine dayalı olarak eğitilir.
Girdi görüntüsüne bağlı olarak eğitilen model, her pikselin gelecekteki yörüngesini tanımlayan bir dizi temel hareket katsayısından oluşan bir "nöral stokastik hareket dokusu" öngörüyor.
Google araştırmacıları, çalışmalarının kapsamını ağaçlar ve rüzgarda uçuşan çiçekler gibi doğal salınım dinamiklerine sahip gerçek dünya sahneleriyle sınırladı ve bu nedenle temel fonksiyon olarak Fourier serisini seçtiler.
Daha sonra, "nöral stokastik hareket dokularını" tahmin etmek için bir difüzyon modeli kullanılır. Model, bir seferde yalnızca bir frekans için katsayılar üretir, ancak bu tahminleri farklı frekans bantları boyunca koordine eder.
Ortaya çıkan frekans-uzay dokusu, gelecekteki kareleri sentezlemek ve statik görüntüleri gerçekçi animasyonlara dönüştürmek için kullanılabilen yoğun uzun mesafeli piksel hareket yörüngelerine dönüştürülebilir.
Şimdi nasıl uygulandığına bir göz atalım mı?
Teknolojiye Giriş
Tek bir görüntüye dayalı
, araştırmacının amacı T uzunluğunda bir video oluşturmaktır
, bu videoda rüzgarda sallanan dinamik ağaçlar, çiçekler veya mum alevleri gösterilebilir.
Araştırmacılar tarafından oluşturulan sistem "aksiyon tahmin modülü" ve "görüntü tabanlı işleme modülü" olmak üzere iki modülden oluşuyor.
İlk olarak araştırmacılar, girdi görüntüsü olarak bir "gizli yayılma modeli" kullandılar.
Sinirsel stokastik hareket dokusunu tahmin etmek
Giriş görüntüsündeki her pikselin hareket yörüngesinin frekans temsilidir.
İkinci adımda, tahmin edilen rastgele hareket dokusunu bir dizi hareket yer değiştirme alanına dönüştürmek için ters ayrık Fourier dönüşümü kullanılır.
.
Bu hareket yer değiştirme alanları, her bir giriş pikselinin gelecekteki her zaman adımındaki konumunu belirlemek için kullanılacaktır.
Bu tahmin edilen hareket alanlarıyla, araştırmacıların işleme modülü, giriş RGB görüntülerinden kodlama özelliklerini almak için görüntü tabanlı işleme tekniklerini kullanıyor ve seçilen bu özelliklerin kodunu, bir görüntü sentez ağı aracılığıyla çıkış çerçevelerine dönüştürüyor.
Sinirsel Rastgele Hareket Dokusu
hareket dokusu
Önceki araştırmada, hareket dokusu bir dizi zamanla değişen 2 boyutlu yer değiştirme haritasını tanımlıyordu.
burada, giriş görüntüsündeki her piksel koordinatı p
2 boyutlu yer değiştirme vektörü pikselin gelecek t zamanındaki konumunu tanımlar.
T zamanında gelecek bir çerçeve oluşturmak için karşılık gelen yer değiştirme haritası kullanılabilir:
'dan pikseller seçin, sonuçta ileri deforme olmuş bir görüntü elde edilir:
Rastgele hareket dokusu
Daha önce bilgisayar grafiği araştırmalarında gösterildiği gibi, pek çok doğal hareket, özellikle de salınım hareketleri, farklı frekanslar, genlikler ve fazlar ile temsil edilen küçük bir harmonik osilatörler setinin üst üste binmesi olarak tanımlanabilir.
Harekete rastgelelik getirmenin bir yolu gürültü alanlarını entegre etmektir. Ancak önceki araştırmaların gösterdiği gibi, tahmin edilen hareket alanlarının uzaysal ve zamansal alanlarına doğrudan rastgele gürültü eklemek çoğu zaman gerçekçi olmayan veya dengesiz animasyonlarla sonuçlanır.
Ayrıca, yukarıda tanımlanan zamansal alanda hareket dokusunun kullanılması, T kareleri içeren bir video segmenti oluşturmak için T 2D yer değiştirme alanlarının tahmin edilmesi gerektiği anlamına gelir. Bu kadar büyük bir çıktı temsilini tahmin etmekten kaçınmak için, önceki birçok animasyon yöntemi ya otomatik gerilemeli olarak video kareleri üretir ya da ek zamansal yerleştirme yoluyla gelecekteki her çıktı karesini bağımsız olarak tahmin eder.
Ancak stratejilerden hiçbiri, oluşturulan video karelerinin uzun vadede geçici olarak tutarlı olmasını garanti etmez ve her ikisi de zaman içinde kayan veya farklılaşan videolar üretebilir.
Yukarıdaki sorunları çözmek için araştırmacılar, giriş sahnesinin piksel başına hareket dokusunu frekans alanında (yani tüm piksellerin tam hareket yörüngeleri) temsil eder ve hareket tahmini problemini çok modlu bir görüntüden görüntüye dönüşüm olarak formüle eder. görev.
Araştırmacılar, 4K kanallı 2D hareket spektrogramından oluşan rastgele bir hareket dokusu oluşturmak için bir gizli difüzyon modeli (LDM) kullandılar; burada K << T, modellenen frekansların sayısıdır ve her frekansta araştırmacılar, frekansı temsil etmek için dört skalere ihtiyaç duydu. x ve y boyutlarında karmaşık Fourier katsayıları.
Aşağıdaki resimde bu sinirsel rastgele hareket dokuları gösterilmektedir.
Peki araştırmacıların belirttiği K çıkış frekansı nasıl seçilmelidir? Gerçek zamanlı animasyon üzerine yapılan önceki araştırmalar, doğal salınım hareketinin çoğunun esas olarak düşük frekanslı bileşenlerden oluştuğunu göstermiştir.
Bu hipotezi test etmek için araştırmacılar, rastgele örneklenmiş 1000 adet 5 saniyelik gerçek video klipten elde edilen ortalama hareket güç spektrumunu hesapladılar. Aşağıdaki sol resimde gösterildiği gibi güç esas olarak düşük frekanslı bileşenler üzerinde yoğunlaşmıştır.
Bir eylemin frekans spektrumu, artan frekansla birlikte üstel olarak azalır. Bu, çoğu doğal titreşim eyleminin aslında düşük frekanslı terimlerle iyi bir şekilde temsil edilebileceğini göstermektedir.
Uygulamada araştırmacılar, ilk K = 16 Fourier katsayılarının, bir dizi gerçek video ve sahnede orijinal doğal hareketleri aslına sadık bir şekilde yeniden üretmek için yeterli olduğunu buldu.
Eylemleri tahmin etmek için yayılma modelini kullanın
Araştırmacılar, araştırmacıların eylem tahmin modülünün çekirdeği olarak gizli difüzyon modelini (LDM) seçtiler çünkü LDM, üretim kalitesini korurken piksel alanı difüzyon modelinden hesaplama açısından daha verimlidir.
Standart bir LDM temel olarak iki modül içerir:
Değişken bir otomatik kodlayıcı (VAE), giriş görüntüsünü z = E(I) kodlayıcı aracılığıyla gizli alana sıkıştırır ve ardından I = D(z) kod çözücü aracılığıyla gizli özelliklerden gelen girişi yeniden yapılandırır.
Gauss rastgele gürültüsünden başlayarak gizli özelliklerin yinelemeli olarak gürültüsünü gidermeyi öğrenen U-Net'e dayalı bir yayılma modeli.
Araştırmacıların eğitimi, girdi görüntülerine değil, kodlanan ve daha sonra gürültülü gizli değişkenler zn üretmek için önceden tanımlanmış bir varyans çizelgesinde n adıma dağıtılan gerçek video dizilerinden rastgele eylem dokularına uygulandı.
Frekans uyarlamalı normalleştirme
Araştırmacılar, rastgele eylem dokularının frekansta belirli dağılım özelliklerine sahip olduğu bir sorun gözlemlediler. Yukarıdaki görüntünün sol panelinde gösterildiği gibi, araştırmacıların hareket dokusunun genliği 0 ile 100 arasında değişmektedir ve frekans arttıkça kabaca üstel olarak azalmaktadır.
Difüzyon modelleri, kararlı eğitim ve gürültü giderme için 0 ile 1 arasında çıktı değerleri gerektirdiğinden, araştırmacıların, onlarla eğitim yapmadan önce gerçek videolardan elde edilen S katsayılarını normalleştirmeleri gerekir.
Araştırmacılar, görüntünün genişliğine ve yüksekliğine bağlı olarak S katsayılarının büyüklüğünü [0,1] olarak ölçeklendirirse, yukarıdaki şekilde (sağda) gösterildiği gibi, daha yüksek frekanslarda neredeyse tüm katsayılar sıfıra yakın olacaktır.
Bu tür veriler üzerinde eğitilen modeller hatalı eylemler üretebilir çünkü çıkarım sırasında, küçük tahmin hataları bile normalleştirilmiş S katsayısının büyüklüğü sıfıra çok yakın olduğunda, denormalizasyondan sonra büyük göreceli hatalara yol açabilir.
Bu sorunu çözmek için araştırmacılar basit ama etkili bir frekans uyarlamalı normalleştirme tekniği kullandılar. Spesifik olarak, araştırmacılar öncelikle eğitim setinden hesaplanan istatistiklere dayanarak her frekanstaki Fourier katsayılarını bağımsız olarak normalleştirdiler.
Frekans koordineli gürültü giderme
K frekans bantlarına sahip bir rastgele eylem dokusunu (S) tahmin etmenin basit bir yolu, standart bir difüzyon U-Net'ten 4K kanallı bir tensörün çıktısını almaktır.
Ancak bir modelin bu kadar çok sayıda kanal üretecek şekilde eğitilmesi çoğu zaman aşırı derecede düzgün ve hatalı çıktılar üretir.
Başka bir yaklaşım, LDM'ye ek frekans yerleştirmeleri enjekte ederek her bir frekanstaki eylem spektrogramını bağımsız olarak tahmin etmektir, ancak bu, frekans alanında alakasız tahminlere ve dolayısıyla gerçekçi olmayan eylemlere yol açar.
Bu nedenle araştırmacılar aşağıdaki şekilde gösterilen frekans koordineli gürültü giderme stratejisini önerdiler. Spesifik olarak, bir giriş görüntüsü I0 verildiğinde, ilk olarak her bir frekans için dört kanallı rastgele eylem doku haritalarını tahmin etmek için bir LDM'yi eğitiriz, burada ağdaki zaman adımı yerleştirmeleriyle birlikte LDM'ye ek frekans yerleştirmeleri enjekte ederiz.
### Görüntü tabanlı oluşturma
Araştırmacılar ayrıca belirli bir giriş görüntüsü I0 için tahmin edilen rastgele hareket dokusunu S kullanarak bir çerçevenin gelecek t zamanında nasıl oluşturulacağını da açıklıyorlar. İlk olarak araştırmacılar, her p piksel noktasındaki hareket yörünge alanını hesaplamak için ters zaman alanı FFT'yi (Hızlı Fourier Dönüşümü) kullandılar.
Bu hareket yörüngesi alanları, her bir giriş pikselinin gelecekteki her zaman adımındaki konumunu belirler. Gelecekteki kareleri oluşturmak için araştırmacılar, derinlik görüntüsüne dayalı bir oluşturma tekniği kullanıyor ve aşağıdaki şekilde gösterildiği gibi, kodlanmış I0'ı çarpıtmak için öngörülen hareket alanını kullanarak ileri eğme (splatting) gerçekleştiriyor.
İleriye doğru çarpıtma görüntüde deliklere neden olabileceğinden ve birden fazla kaynak pikseli aynı çıkış 2D konumuna eşlenebileceğinden, araştırmacılar daha önce çerçeve enterpolasyonu araştırmasında önerilen özellik piramidi Softmax çarpıtma stratejisini benimsedi.
Özellik çıkarıcıyı ve sentez ağını, gerçek videolardan rastgele örneklenmiş başlangıç ve hedef çerçevelerle ortaklaşa eğitiyoruz; burada, I0'un kodlanmış özelliklerini çarpıtmak için I0'dan It'e kadar olan tahmini akış alanını kullanıyoruz ve VGG algısal kaybını tahmin etmek için kullanıyoruz. .
Yukarıda gösterildiği gibi, harekete duyarlı özellik çarpıtmamız, doğrudan ortalama çarpıtma ve taban çizgisi derinlik çarpıtma yöntemleriyle karşılaştırıldığında, delik veya bozulma olmayan bir çerçeve üretir.
Daha fazla genişletilmiş uygulamalar
Araştırmacılar ayrıca araştırmacılar tarafından önerilen hareket temsili ve animasyon sürecini kullanarak tek bir statik görüntüye dinamik efektler ekleme uygulamasını gösterdiler.
Resimden videoya
Araştırmacıların sistemi, ilk önce girdi görüntüsünden bir sinirsel rastgele hareket dokusunu tahmin ederek ve araştırmacıların görüntü tabanlı işleme modülünü rastgele hareket dokusundan türetilen bir hareket yer değiştirme alanına uygulayarak tek bir statik görüntüyü canlandırıyor.
Sahne hareketini açıkça modellediğimiz için bu, hareket yer değiştirme alanlarını doğrusal olarak enterpolasyona tabi tutarak yavaş çekim videolar oluşturmamıza ve tahmin edilen rastgele hareket dokusu katsayılarının genliğini ayarlayarak animasyonlu hareketi yakınlaştırmamıza (veya uzaklaştırmamıza) olanak sağladı.
Kesintisiz Döngü
Bazen kesintisiz döngüsel hareket içeren videolar oluşturmak yararlı olabilir; bu, videonun başlangıcı ve sonu arasında görünüm veya hareket açısından herhangi bir süreksizlik olmadığı anlamına gelir.
Ne yazık ki, kesintisiz bir şekilde döngüye giren videolardan oluşan geniş bir eğitim seti bulmak zordur. Bu nedenle araştırmacılar, kesintisiz bir şekilde döngüye giren videolar üretmek için, düzenli, döngüsel olmayan video klipler üzerinde eğitilmiş olan araştırmacıların hareket dağılım modelini kullanarak bir yöntem geliştirdiler.
Kılavuzlu görüntü düzenlemeyle ilgili son araştırmalardan ilham alan araştırmacıların yaklaşımı, hareket gürültüsünü gideren örnekleme sürecini yönlendirmek için açık döngü kısıtlamalarını kullanan, hareketin kendi kendine yönlendirildiği bir tekniktir.
Spesifik olarak, çıkarım aşamasının her yinelemeli gürültü giderme adımı sırasında, araştırmacılar standart sınıflandırıcı içermeyen rehberliğin yanı sıra ek bir hareket rehberliği sinyali eklediler; burada her pikseli çerçevenin başlangıç ve bitiş konumlarında olmaya zorladık ve Hızlar mümkün olduğu kadar benzer.
Tek bir görüntüden etkileşimli animasyonlar oluşturun
Salınım yapan bir nesnenin gözlemlenen videosundaki görüntü uzamsal hareket spektrumu, nesnenin fiziksel titreşim modal temeline yaklaşır.
Modal şekiller, bir nesnenin farklı frekanslardaki salınım dinamiklerini yakalar; böylece bir nesnenin titreşim modellerinin görüntü-uzay projeksiyonları, nesnenin dürtme veya çekme gibi kullanıcı tanımlı bir kuvvete tepkisini modellemek için kullanılabilir.
Bu nedenle araştırmacılar, bir nesnenin hareketinin bir dizi rezonatörün üst üste binmesiyle açıklanabileceğini varsayan, daha önce çalışılmış bir modal analiz tekniğini kullandılar.
Bu, araştırmacıların, nesnenin fiziksel tepkisinin görüntü uzayı iki boyutlu hareket yer değiştirme alanını, Fourier spektrum katsayılarının ve her bir simülasyon zaman adımı t'nin ve zaman t'nin karmaşık modal koordinatlarının ağırlıklı toplamı olarak yazmasına olanak tanır.
Deneysel Değerlendirme
Araştırma ekibi, görülmemiş video kliplerden oluşan bir test seti üzerinde en son yöntem ile temel yöntem arasında niceliksel bir karşılaştırma gerçekleştirdi.
Google'ın yaklaşımının, hem görüntü hem de video sentezi kalitesinde önceki tek görüntülü animasyon temel çizgilerinden önemli ölçüde daha iyi performans gösterdiği ortaya çıktı.
Özellikle Google'ın FVD ve DT-FVD mesafelerinin çok daha düşük olması, bu yöntemle oluşturulan videoların daha gerçekçi ve zamansal olarak tutarlı olduğunu gösteriyor.
Ayrıca Şekil 6'da farklı yöntemlerle oluşturulan videoların kayan pencere FID ve kayan pencere DT-FVD mesafeleri gösterilmektedir.
Google küresel bir stokastik hareket dokusu temsili kullandığından, yaklaşımı zaman içinde daha tutarlı olan ve zamanla kaymayan veya bozulmayan videolar üretir.
Ayrıca Google ekibi, kendi yöntemi ile referans çizgisi tarafından oluşturulan videolar arasında iki şekilde görsel ve niteliksel bir karşılaştırma yaptı.
İlk olarak, oluşturulan videonun Xt uzay-zaman dilimi Şekil 7'de gösterildiği gibi gösterilmektedir.
Google tarafından oluşturulan videoların dinamikleri, karşılık gelen gerçek referans videolarda (ikinci sütun) gözlemlenen hareket modellerine daha çok benzer. Rastgele I2V ve MCVD gibi temel çizgiler, zaman içindeki görünüm ve hareketi gerçekçi bir şekilde simüle edemez.
Görselleri görselleştirerek de tahmin ediyoruz
ve t =128 zamanındaki buna karşılık gelen hareket yer değiştirme alanı. Üretilen her karenin ve hareketin kalitesinin farklı yöntemlerde niteliksel olarak karşılaştırılması.
Google tarafından oluşturulan yöntem, diğer yöntemlere kıyasla daha az yapaylık ve bozulma sergileyen kareler üretir ve karşılık gelen 2 boyutlu hareket alanları, karşılık gelen gerçek videolardan tahmin edilen referans yer değiştirme alanlarına en çok benzerdir.
Ablasyon çalışması: Tablo 2'den, daha basit veya alternatif tüm konfigürasyonların, tam modele göre daha kötü performansa yol açtığı görülmektedir.
yazar hakkında
Zhengqi Li
Zhengqi Li, Google Research'te araştırma bilimcisidir. Araştırma ilgi alanları arasında 3D/4D bilgisayarlı görme, görüntü tabanlı görüntüleme ve özellikle vahşi görüntüler ve videolarda hesaplamalı fotoğrafçılık yer almaktadır. Doktora derecesini Bilgisayar Bilimleri alanında Noah Snavely'nin danışmanlığını yaptığı Cornell Üniversitesi'nden aldı.
CVPR 2019 En İyi Makale Mansiyon Ödülü, 2020 Google Doktora Bursu, 2020 Adobe Araştırma Bursu, 2021 Baidu Küresel Yapay Zeka En İyi 100 Çin Yükselen Yıldızı Ödülü ve CVPR 2023 En İyi Makale Onur Ödülü'nün sahibidir.
Referanslar:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Bir çekiş ve bir çekişmeyle gül canlanıyor! Google, üretken görüntü dinamikleri öneriyor ve bundan sonra her şey canlı olacak
Orijinal kaynak: Xinzhiyuan
Bak, hafif bir çekişle gül hareket etmeye başlıyor.
Sonunda uygulandı ve tek bir görüntüyle etkileşime girilerek sonsuz bir video döngüsü bile oluşturulabildi.
Gelecekte sanatçıların hayal gücü artık geleneksel çerçevelerle sınırlı olmayacak ve bu dinamik görüntü alanında her şey mümkün olacak.
Resimdeki her şey canlanıyor
Dünyadaki her şeyin hareketi çok modludur.
Bahçede asılı duran giysiler rüzgarla ileri geri sallanıyordu.
Bir fotoğrafı ellerine alan araştırmacılar, fotoğraf çekildiğinde fotoğrafın nasıl hareket ettiğini hayal edebilirler.
Üretken modellerin, özellikle de yayılma modellerinin mevcut gelişimi göz önüne alındığında, oldukça zengin ve karmaşık dağılımları modellemek mümkündür.
Bu, metinden keyfi olarak gerçekçi görüntüler oluşturmak gibi daha önce imkansız olan birçok uygulamayı mümkün kılar. Difüzyon modeli görüntü alanında faydalı olmasının yanı sıra video alanını modellemek için de kullanılabilir.
Model, çok sayıda gerçek video dizisinden otomatik olarak çıkarılan hareket yörüngelerine dayalı olarak eğitilir.
Girdi görüntüsüne bağlı olarak eğitilen model, her pikselin gelecekteki yörüngesini tanımlayan bir dizi temel hareket katsayısından oluşan bir "nöral stokastik hareket dokusu" öngörüyor.
Daha sonra, "nöral stokastik hareket dokularını" tahmin etmek için bir difüzyon modeli kullanılır. Model, bir seferde yalnızca bir frekans için katsayılar üretir, ancak bu tahminleri farklı frekans bantları boyunca koordine eder.
Ortaya çıkan frekans-uzay dokusu, gelecekteki kareleri sentezlemek ve statik görüntüleri gerçekçi animasyonlara dönüştürmek için kullanılabilen yoğun uzun mesafeli piksel hareket yörüngelerine dönüştürülebilir.
Teknolojiye Giriş
Tek bir görüntüye dayalı
Araştırmacılar tarafından oluşturulan sistem "aksiyon tahmin modülü" ve "görüntü tabanlı işleme modülü" olmak üzere iki modülden oluşuyor.
İlk olarak araştırmacılar, girdi görüntüsü olarak bir "gizli yayılma modeli" kullandılar.
İkinci adımda, tahmin edilen rastgele hareket dokusunu bir dizi hareket yer değiştirme alanına dönüştürmek için ters ayrık Fourier dönüşümü kullanılır.
Bu hareket yer değiştirme alanları, her bir giriş pikselinin gelecekteki her zaman adımındaki konumunu belirlemek için kullanılacaktır.
Bu tahmin edilen hareket alanlarıyla, araştırmacıların işleme modülü, giriş RGB görüntülerinden kodlama özelliklerini almak için görüntü tabanlı işleme tekniklerini kullanıyor ve seçilen bu özelliklerin kodunu, bir görüntü sentez ağı aracılığıyla çıkış çerçevelerine dönüştürüyor.
Sinirsel Rastgele Hareket Dokusu
hareket dokusu
Önceki araştırmada, hareket dokusu bir dizi zamanla değişen 2 boyutlu yer değiştirme haritasını tanımlıyordu.
T zamanında gelecek bir çerçeve oluşturmak için karşılık gelen yer değiştirme haritası kullanılabilir:
Daha önce bilgisayar grafiği araştırmalarında gösterildiği gibi, pek çok doğal hareket, özellikle de salınım hareketleri, farklı frekanslar, genlikler ve fazlar ile temsil edilen küçük bir harmonik osilatörler setinin üst üste binmesi olarak tanımlanabilir.
Harekete rastgelelik getirmenin bir yolu gürültü alanlarını entegre etmektir. Ancak önceki araştırmaların gösterdiği gibi, tahmin edilen hareket alanlarının uzaysal ve zamansal alanlarına doğrudan rastgele gürültü eklemek çoğu zaman gerçekçi olmayan veya dengesiz animasyonlarla sonuçlanır.
Ayrıca, yukarıda tanımlanan zamansal alanda hareket dokusunun kullanılması, T kareleri içeren bir video segmenti oluşturmak için T 2D yer değiştirme alanlarının tahmin edilmesi gerektiği anlamına gelir. Bu kadar büyük bir çıktı temsilini tahmin etmekten kaçınmak için, önceki birçok animasyon yöntemi ya otomatik gerilemeli olarak video kareleri üretir ya da ek zamansal yerleştirme yoluyla gelecekteki her çıktı karesini bağımsız olarak tahmin eder.
Ancak stratejilerden hiçbiri, oluşturulan video karelerinin uzun vadede geçici olarak tutarlı olmasını garanti etmez ve her ikisi de zaman içinde kayan veya farklılaşan videolar üretebilir.
Yukarıdaki sorunları çözmek için araştırmacılar, giriş sahnesinin piksel başına hareket dokusunu frekans alanında (yani tüm piksellerin tam hareket yörüngeleri) temsil eder ve hareket tahmini problemini çok modlu bir görüntüden görüntüye dönüşüm olarak formüle eder. görev.
Araştırmacılar, 4K kanallı 2D hareket spektrogramından oluşan rastgele bir hareket dokusu oluşturmak için bir gizli difüzyon modeli (LDM) kullandılar; burada K << T, modellenen frekansların sayısıdır ve her frekansta araştırmacılar, frekansı temsil etmek için dört skalere ihtiyaç duydu. x ve y boyutlarında karmaşık Fourier katsayıları.
Aşağıdaki resimde bu sinirsel rastgele hareket dokuları gösterilmektedir.
Bu hipotezi test etmek için araştırmacılar, rastgele örneklenmiş 1000 adet 5 saniyelik gerçek video klipten elde edilen ortalama hareket güç spektrumunu hesapladılar. Aşağıdaki sol resimde gösterildiği gibi güç esas olarak düşük frekanslı bileşenler üzerinde yoğunlaşmıştır.
Uygulamada araştırmacılar, ilk K = 16 Fourier katsayılarının, bir dizi gerçek video ve sahnede orijinal doğal hareketleri aslına sadık bir şekilde yeniden üretmek için yeterli olduğunu buldu.
Eylemleri tahmin etmek için yayılma modelini kullanın
Araştırmacılar, araştırmacıların eylem tahmin modülünün çekirdeği olarak gizli difüzyon modelini (LDM) seçtiler çünkü LDM, üretim kalitesini korurken piksel alanı difüzyon modelinden hesaplama açısından daha verimlidir.
Standart bir LDM temel olarak iki modül içerir:
Değişken bir otomatik kodlayıcı (VAE), giriş görüntüsünü z = E(I) kodlayıcı aracılığıyla gizli alana sıkıştırır ve ardından I = D(z) kod çözücü aracılığıyla gizli özelliklerden gelen girişi yeniden yapılandırır.
Gauss rastgele gürültüsünden başlayarak gizli özelliklerin yinelemeli olarak gürültüsünü gidermeyi öğrenen U-Net'e dayalı bir yayılma modeli.
Araştırmacıların eğitimi, girdi görüntülerine değil, kodlanan ve daha sonra gürültülü gizli değişkenler zn üretmek için önceden tanımlanmış bir varyans çizelgesinde n adıma dağıtılan gerçek video dizilerinden rastgele eylem dokularına uygulandı.
Frekans uyarlamalı normalleştirme
Araştırmacılar, rastgele eylem dokularının frekansta belirli dağılım özelliklerine sahip olduğu bir sorun gözlemlediler. Yukarıdaki görüntünün sol panelinde gösterildiği gibi, araştırmacıların hareket dokusunun genliği 0 ile 100 arasında değişmektedir ve frekans arttıkça kabaca üstel olarak azalmaktadır.
Difüzyon modelleri, kararlı eğitim ve gürültü giderme için 0 ile 1 arasında çıktı değerleri gerektirdiğinden, araştırmacıların, onlarla eğitim yapmadan önce gerçek videolardan elde edilen S katsayılarını normalleştirmeleri gerekir.
Araştırmacılar, görüntünün genişliğine ve yüksekliğine bağlı olarak S katsayılarının büyüklüğünü [0,1] olarak ölçeklendirirse, yukarıdaki şekilde (sağda) gösterildiği gibi, daha yüksek frekanslarda neredeyse tüm katsayılar sıfıra yakın olacaktır.
Bu tür veriler üzerinde eğitilen modeller hatalı eylemler üretebilir çünkü çıkarım sırasında, küçük tahmin hataları bile normalleştirilmiş S katsayısının büyüklüğü sıfıra çok yakın olduğunda, denormalizasyondan sonra büyük göreceli hatalara yol açabilir.
Bu sorunu çözmek için araştırmacılar basit ama etkili bir frekans uyarlamalı normalleştirme tekniği kullandılar. Spesifik olarak, araştırmacılar öncelikle eğitim setinden hesaplanan istatistiklere dayanarak her frekanstaki Fourier katsayılarını bağımsız olarak normalleştirdiler.
Frekans koordineli gürültü giderme
K frekans bantlarına sahip bir rastgele eylem dokusunu (S) tahmin etmenin basit bir yolu, standart bir difüzyon U-Net'ten 4K kanallı bir tensörün çıktısını almaktır.
Ancak bir modelin bu kadar çok sayıda kanal üretecek şekilde eğitilmesi çoğu zaman aşırı derecede düzgün ve hatalı çıktılar üretir.
Başka bir yaklaşım, LDM'ye ek frekans yerleştirmeleri enjekte ederek her bir frekanstaki eylem spektrogramını bağımsız olarak tahmin etmektir, ancak bu, frekans alanında alakasız tahminlere ve dolayısıyla gerçekçi olmayan eylemlere yol açar.
Bu nedenle araştırmacılar aşağıdaki şekilde gösterilen frekans koordineli gürültü giderme stratejisini önerdiler. Spesifik olarak, bir giriş görüntüsü I0 verildiğinde, ilk olarak her bir frekans için dört kanallı rastgele eylem doku haritalarını tahmin etmek için bir LDM'yi eğitiriz, burada ağdaki zaman adımı yerleştirmeleriyle birlikte LDM'ye ek frekans yerleştirmeleri enjekte ederiz.
Araştırmacılar ayrıca belirli bir giriş görüntüsü I0 için tahmin edilen rastgele hareket dokusunu S kullanarak bir çerçevenin gelecek t zamanında nasıl oluşturulacağını da açıklıyorlar. İlk olarak araştırmacılar, her p piksel noktasındaki hareket yörünge alanını hesaplamak için ters zaman alanı FFT'yi (Hızlı Fourier Dönüşümü) kullandılar.
Özellik çıkarıcıyı ve sentez ağını, gerçek videolardan rastgele örneklenmiş başlangıç ve hedef çerçevelerle ortaklaşa eğitiyoruz; burada, I0'un kodlanmış özelliklerini çarpıtmak için I0'dan It'e kadar olan tahmini akış alanını kullanıyoruz ve VGG algısal kaybını tahmin etmek için kullanıyoruz. .
Daha fazla genişletilmiş uygulamalar
Araştırmacılar ayrıca araştırmacılar tarafından önerilen hareket temsili ve animasyon sürecini kullanarak tek bir statik görüntüye dinamik efektler ekleme uygulamasını gösterdiler.
Resimden videoya
Araştırmacıların sistemi, ilk önce girdi görüntüsünden bir sinirsel rastgele hareket dokusunu tahmin ederek ve araştırmacıların görüntü tabanlı işleme modülünü rastgele hareket dokusundan türetilen bir hareket yer değiştirme alanına uygulayarak tek bir statik görüntüyü canlandırıyor.
Sahne hareketini açıkça modellediğimiz için bu, hareket yer değiştirme alanlarını doğrusal olarak enterpolasyona tabi tutarak yavaş çekim videolar oluşturmamıza ve tahmin edilen rastgele hareket dokusu katsayılarının genliğini ayarlayarak animasyonlu hareketi yakınlaştırmamıza (veya uzaklaştırmamıza) olanak sağladı.
Kesintisiz Döngü
Bazen kesintisiz döngüsel hareket içeren videolar oluşturmak yararlı olabilir; bu, videonun başlangıcı ve sonu arasında görünüm veya hareket açısından herhangi bir süreksizlik olmadığı anlamına gelir.
Ne yazık ki, kesintisiz bir şekilde döngüye giren videolardan oluşan geniş bir eğitim seti bulmak zordur. Bu nedenle araştırmacılar, kesintisiz bir şekilde döngüye giren videolar üretmek için, düzenli, döngüsel olmayan video klipler üzerinde eğitilmiş olan araştırmacıların hareket dağılım modelini kullanarak bir yöntem geliştirdiler.
Kılavuzlu görüntü düzenlemeyle ilgili son araştırmalardan ilham alan araştırmacıların yaklaşımı, hareket gürültüsünü gideren örnekleme sürecini yönlendirmek için açık döngü kısıtlamalarını kullanan, hareketin kendi kendine yönlendirildiği bir tekniktir.
Spesifik olarak, çıkarım aşamasının her yinelemeli gürültü giderme adımı sırasında, araştırmacılar standart sınıflandırıcı içermeyen rehberliğin yanı sıra ek bir hareket rehberliği sinyali eklediler; burada her pikseli çerçevenin başlangıç ve bitiş konumlarında olmaya zorladık ve Hızlar mümkün olduğu kadar benzer.
Tek bir görüntüden etkileşimli animasyonlar oluşturun
Salınım yapan bir nesnenin gözlemlenen videosundaki görüntü uzamsal hareket spektrumu, nesnenin fiziksel titreşim modal temeline yaklaşır.
Modal şekiller, bir nesnenin farklı frekanslardaki salınım dinamiklerini yakalar; böylece bir nesnenin titreşim modellerinin görüntü-uzay projeksiyonları, nesnenin dürtme veya çekme gibi kullanıcı tanımlı bir kuvvete tepkisini modellemek için kullanılabilir.
Bu nedenle araştırmacılar, bir nesnenin hareketinin bir dizi rezonatörün üst üste binmesiyle açıklanabileceğini varsayan, daha önce çalışılmış bir modal analiz tekniğini kullandılar.
Bu, araştırmacıların, nesnenin fiziksel tepkisinin görüntü uzayı iki boyutlu hareket yer değiştirme alanını, Fourier spektrum katsayılarının ve her bir simülasyon zaman adımı t'nin ve zaman t'nin karmaşık modal koordinatlarının ağırlıklı toplamı olarak yazmasına olanak tanır.
Deneysel Değerlendirme
Araştırma ekibi, görülmemiş video kliplerden oluşan bir test seti üzerinde en son yöntem ile temel yöntem arasında niceliksel bir karşılaştırma gerçekleştirdi.
Google'ın yaklaşımının, hem görüntü hem de video sentezi kalitesinde önceki tek görüntülü animasyon temel çizgilerinden önemli ölçüde daha iyi performans gösterdiği ortaya çıktı.
Özellikle Google'ın FVD ve DT-FVD mesafelerinin çok daha düşük olması, bu yöntemle oluşturulan videoların daha gerçekçi ve zamansal olarak tutarlı olduğunu gösteriyor.
Google küresel bir stokastik hareket dokusu temsili kullandığından, yaklaşımı zaman içinde daha tutarlı olan ve zamanla kaymayan veya bozulmayan videolar üretir.
İlk olarak, oluşturulan videonun Xt uzay-zaman dilimi Şekil 7'de gösterildiği gibi gösterilmektedir.
Google tarafından oluşturulan videoların dinamikleri, karşılık gelen gerçek referans videolarda (ikinci sütun) gözlemlenen hareket modellerine daha çok benzer. Rastgele I2V ve MCVD gibi temel çizgiler, zaman içindeki görünüm ve hareketi gerçekçi bir şekilde simüle edemez.
Google tarafından oluşturulan yöntem, diğer yöntemlere kıyasla daha az yapaylık ve bozulma sergileyen kareler üretir ve karşılık gelen 2 boyutlu hareket alanları, karşılık gelen gerçek videolardan tahmin edilen referans yer değiştirme alanlarına en çok benzerdir.
yazar hakkında
Zhengqi Li
CVPR 2019 En İyi Makale Mansiyon Ödülü, 2020 Google Doktora Bursu, 2020 Adobe Araştırma Bursu, 2021 Baidu Küresel Yapay Zeka En İyi 100 Çin Yükselen Yıldızı Ödülü ve CVPR 2023 En İyi Makale Onur Ödülü'nün sahibidir.
Referanslar: