Lihat, dengan tarikan lembut, mawar itu mulai bergerak.
Menyeret dedaunan ke kiri, pohon pinus itu bergerak ke arah yang sama.
Ada juga gambar berbagai objek di dunia yang bisa dihidupkan dalam sekejap.
Ini adalah penelitian terbaru yang dilakukan tim Google, mengubah tangan Anda menjadi "jari emas ajaib" yang dapat mengontrol segalanya dan menggerakkannya dengan satu sentuhan.
Dalam makalah ini, Google mengusulkan "Dinamika Gambar Generatif", yang memodelkan ruang gambar sebelumnya dan kemudian melatih model tersebut untuk memprediksi "tekstur gerakan acak saraf".
Akhirnya, hal ini diterapkan, dan bahkan putaran video tanpa batas dapat dihasilkan dengan berinteraksi dengan satu gambar.
Di masa depan, imajinasi seniman tidak lagi dibatasi oleh kerangka tradisional, dan segalanya akan mungkin terjadi dalam ruang gambar yang dinamis ini.
Semua yang ada di gambar menjadi hidup
Pergerakan segala sesuatu di dunia bersifat multimoda.
Pakaian yang tergantung di halaman bergoyang maju mundur mengikuti angin.
Lentera merah besar yang tergantung di jalan bergoyang di udara.
Ada juga anak kucing yang tidur di samping tirai, perutnya naik turun, malas sekali.
Pergerakan ini biasanya tidak dapat diprediksi: lilin menyala dengan cara tertentu, pepohonan bergoyang tertiup angin, dedaunan berdesir...
Dengan mengambil sebuah foto, peneliti mungkin bisa membayangkan bagaimana pergerakannya saat foto itu diambil.
Mengingat perkembangan model generatif saat ini, khususnya model difusi, dimungkinkan untuk memodelkan distribusi yang sangat kaya dan kompleks.
Hal ini memungkinkan banyak penerapan yang sebelumnya tidak mungkin dilakukan, seperti menghasilkan gambar realistis yang sewenang-wenang dari teks. Selain berguna pada bidang gambar, model difusi juga dapat digunakan untuk memodelkan bidang video.
Dari sini, tim Google dalam penelitian ini memodelkan gerak adegan generatif sebelumnya dalam ruang gambar, yaitu gerak semua piksel dalam satu gambar.
Model dilatih berdasarkan lintasan gerak yang secara otomatis diekstraksi dari sejumlah besar rangkaian video nyata.
Berdasarkan gambar masukan, model yang dilatih memprediksi "tekstur gerakan stokastik saraf": sekumpulan koefisien gerakan dasar yang menggambarkan lintasan masa depan setiap piksel.
Peneliti Google membatasi ruang lingkup studi mereka pada pemandangan dunia nyata dengan dinamika ayunan alami, seperti pepohonan dan bunga yang tertiup angin, sehingga mereka memilih deret Fourier sebagai fungsi dasarnya.
Kemudian, model difusi digunakan untuk memprediksi “tekstur gerak stokastik saraf.” Model ini hanya menghasilkan koefisien untuk satu frekuensi pada satu waktu, namun mengoordinasikan prediksi ini pada pita frekuensi yang berbeda.
Tekstur ruang frekuensi yang dihasilkan dapat diubah menjadi lintasan gerak piksel jarak jauh yang padat yang dapat digunakan untuk mensintesis bingkai masa depan, mengubah gambar statis menjadi animasi realistis.
Selanjutnya, mari kita lihat bagaimana penerapannya?
Pengenalan Teknologi
Berdasarkan satu gambar
, tujuan peneliti adalah menghasilkan video berdurasi T
, video ini dapat menampilkan dinamika pepohonan, bunga, atau nyala lilin yang bergoyang tertiup angin.
Sistem yang dibangun oleh peneliti terdiri dari dua modul: “modul prediksi tindakan” dan “modul rendering berbasis gambar”.
Pertama, para peneliti menggunakan “model difusi laten” sebagai gambar masukan
Memprediksi tekstur gerak stokastik saraf
Ini adalah representasi frekuensi lintasan gerak setiap piksel pada gambar masukan.
Pada langkah kedua, transformasi Fourier diskrit terbalik digunakan untuk mengubah prediksi tekstur gerak acak menjadi serangkaian bidang perpindahan gerak.
。
Bidang perpindahan gerak ini akan digunakan untuk menentukan posisi setiap piksel masukan pada setiap langkah waktu mendatang.
Dengan bidang gerak yang diprediksi ini, modul rendering para peneliti menggunakan teknik rendering berbasis gambar untuk mengambil fitur pengkodean dari gambar masukan RGB dan menerjemahkan fitur yang dipilih ini ke dalam bingkai keluaran melalui jaringan sintesis gambar.
Tekstur Gerakan Acak Neural
tekstur gerak
Dalam penelitian sebelumnya, tekstur gerak mendefinisikan serangkaian peta perpindahan 2D yang bervariasi terhadap waktu.
dimana, setiap piksel berkoordinasi p, dari gambar masukan
Vektor perpindahan 2D dalam menentukan posisi piksel pada waktu mendatang t.
Untuk menghasilkan kerangka masa depan pada waktu t, peta perpindahan yang sesuai dapat digunakan, dari
Pilih piksel dari , sehingga menghasilkan gambar yang terdeformasi ke depan:
Tekstur gerakan acak
Seperti yang telah ditunjukkan sebelumnya dalam penelitian grafik komputer, banyak gerakan alami, terutama gerakan osilasi, dapat digambarkan sebagai superposisi dari sekumpulan kecil osilator harmonik, yang diwakili oleh frekuensi, amplitudo, dan fase yang berbeda.
Salah satu cara untuk memperkenalkan keacakan dalam gerakan adalah dengan mengintegrasikan medan kebisingan. Namun seperti yang ditunjukkan oleh penelitian sebelumnya, menambahkan noise acak secara langsung ke domain spasial dan temporal dari bidang gerak yang diprediksi sering kali menghasilkan animasi yang tidak realistis atau tidak stabil.
Lebih lanjut, dengan menggunakan tekstur gerak dalam domain temporal yang ditentukan di atas berarti bidang perpindahan T 2D perlu diprediksi untuk menghasilkan segmen video yang berisi bingkai T. Untuk menghindari prediksi representasi keluaran yang begitu besar, banyak metode animasi sebelumnya menghasilkan bingkai video secara otomatis atau secara independen memprediksi setiap bingkai keluaran di masa mendatang melalui penyematan temporal tambahan.
Namun, tidak ada strategi yang menjamin bahwa frame video yang dihasilkan konsisten secara temporal dalam jangka panjang, dan keduanya mungkin menghasilkan video yang menyimpang atau menyimpang dari waktu ke waktu.
Untuk mengatasi masalah di atas, peneliti merepresentasikan tekstur gerakan per piksel dari adegan input dalam domain frekuensi (yaitu, lintasan gerakan lengkap semua piksel) dan merumuskan masalah prediksi gerakan sebagai konversi gambar-ke-gambar multi-modal. tugas.
Para peneliti menggunakan model difusi laten (LDM) untuk menghasilkan tekstur gerak acak yang terdiri dari spektogram gerak 2D saluran 4K, dimana K << T adalah jumlah frekuensi yang dimodelkan, dan pada setiap frekuensi, peneliti memerlukan empat skalar untuk mewakili koefisien Fourier kompleks dalam dimensi x dan y.
Gambar di bawah menunjukkan tekstur gerakan acak saraf ini.
Jadi, bagaimana seharusnya frekuensi keluaran K yang ditunjukkan oleh para peneliti dipilih? Penelitian sebelumnya tentang animasi real-time telah menunjukkan bahwa sebagian besar gerakan osilasi alami sebagian besar terdiri dari komponen frekuensi rendah.
Untuk menguji hipotesis ini, para peneliti menghitung spektrum kekuatan rata-rata gerakan yang diekstraksi dari 1.000 sampel klip video nyata berdurasi 5 detik yang diambil secara acak. Seperti yang ditunjukkan pada gambar kiri di bawah, daya terutama terkonsentrasi pada komponen frekuensi rendah.
Spektrum frekuensi suatu tindakan berkurang secara eksponensial dengan meningkatnya frekuensi. Hal ini menunjukkan bahwa sebagian besar aksi getaran alami dapat direpresentasikan dengan baik dalam istilah frekuensi rendah.
Dalam praktiknya, para peneliti menemukan bahwa koefisien Fourier K = 16 pertama cukup untuk mereproduksi gerakan alami asli dalam serangkaian video dan adegan nyata.
Gunakan model difusi untuk memprediksi tindakan
Para peneliti memilih model difusi laten (LDM) sebagai inti modul prediksi tindakan peneliti karena LDM lebih efisien secara komputasi dibandingkan model difusi ruang piksel dengan tetap menjaga kualitas pembangkitan.
LDM standar terutama mencakup dua modul:
Autoencoder variasional (VAE) mengompresi gambar masukan ke dalam ruang laten melalui encoder z = E(I), dan kemudian merekonstruksi masukan dari fitur laten melalui decoder I = D(z).
Model difusi berdasarkan U-Net, yang belajar menolak fitur laten secara berulang mulai dari derau acak Gaussian.
Pelatihan para peneliti diterapkan bukan untuk memasukkan gambar tetapi pada tekstur tindakan acak dari rangkaian video nyata, yang dikodekan dan kemudian disebarkan n langkah dalam jadwal varians yang telah ditentukan untuk menghasilkan variabel laten yang berisik zn.
Normalisasi adaptif frekuensi
Para peneliti mengamati masalah di mana tekstur tindakan acak memiliki sifat distribusi frekuensi tertentu. Seperti yang ditunjukkan pada panel kiri gambar di atas, amplitudo tekstur gerak para peneliti berkisar antara 0 hingga 100, dan berkurang secara eksponensial seiring dengan meningkatnya frekuensi.
Karena model difusi memerlukan nilai keluaran antara 0 dan 1 untuk pelatihan dan denoising yang stabil, peneliti harus menormalkan koefisien S yang diekstraksi dari video nyata sebelum melatihnya.
Jika peneliti menskalakan besaran koefisien S menjadi [0,1] berdasarkan lebar dan tinggi gambar, maka hampir semua koefisien akan mendekati nol pada frekuensi yang lebih tinggi, seperti yang ditunjukkan pada gambar di atas (kanan).
Model yang dilatih berdasarkan data tersebut mungkin menghasilkan tindakan yang tidak akurat karena selama inferensi, bahkan kesalahan prediksi yang kecil pun dapat menyebabkan kesalahan relatif yang besar setelah denormalisasi, ketika S yang dinormalisasi Besarnya koefisien sangat mendekati nol.
Untuk mengatasi masalah ini, para peneliti menggunakan teknik normalisasi adaptif frekuensi yang sederhana namun efektif. Secara khusus, para peneliti pertama-tama menormalkan koefisien Fourier pada setiap frekuensi secara independen berdasarkan statistik yang dihitung dari set pelatihan.
Penyangkalan terkoordinasi frekuensi
Cara mudah untuk memprediksi tekstur aksi acak S dengan pita frekuensi K adalah dengan mengeluarkan tensor dengan saluran 4K dari U-Net difusi standar.
Namun, melatih model untuk menghasilkan saluran dalam jumlah besar sering kali menghasilkan keluaran yang terlalu lancar dan tidak akurat.
Pendekatan lain adalah dengan memprediksi spektogram aksi pada masing-masing frekuensi secara independen dengan memasukkan penyematan frekuensi tambahan ke dalam LDM, namun hal ini menyebabkan prediksi yang tidak relevan dalam domain frekuensi sehingga tindakan menjadi tidak realistis.
Oleh karena itu, para peneliti mengusulkan strategi denoising terkoordinasi frekuensi yang ditunjukkan pada gambar di bawah. Secara khusus, dengan memberikan gambar masukan I0, pertama-tama kami melatih LDM untuk memprediksi peta tekstur tindakan acak dengan empat saluran untuk setiap frekuensi individu, di mana kami memasukkan penyematan frekuensi tambahan ke dalam LDM bersama dengan penyematan langkah waktu ke dalam jaringan.
### Render berbasis gambar
Para peneliti selanjutnya menjelaskan cara merender bingkai ˆIt di waktu mendatang t menggunakan tekstur gerakan acak S yang diprediksi untuk gambar masukan tertentu I0. Pertama, peneliti menggunakan FFT (Fast Fourier Transform) domain waktu terbalik untuk menghitung bidang lintasan gerak pada setiap titik piksel p.
Bidang lintasan gerak ini menentukan posisi setiap piksel masukan pada setiap langkah waktu mendatang. Untuk menghasilkan bingkai masa depan, para peneliti menggunakan teknik rendering berbasis gambar kedalaman dan melakukan pembengkokan ke depan (splatting) menggunakan medan gerak yang diprediksi untuk membengkokkan I0 yang dikodekan, seperti yang ditunjukkan pada gambar di bawah.
Karena lengkungan ke depan dapat menyebabkan lubang pada gambar, dan beberapa piksel sumber dapat dipetakan ke posisi keluaran 2D yang sama, para peneliti mengadopsi strategi lengkungan fitur piramida Softmax yang sebelumnya diusulkan dalam penelitian interpolasi bingkai.
Kami bersama-sama melatih ekstraktor fitur dan jaringan sintesis dengan bingkai awal dan target yang diambil sampelnya secara acak dari video nyata, di mana kami menggunakan perkiraan bidang aliran dari I0 ke It untuk membelokkan fitur yang dikodekan dari I0 dan menggunakan kehilangan persepsi VGG untuk memprediksi ˆIa melakukan pengawasan .
Seperti yang ditunjukkan di atas, pembengkokan fitur sadar gerakan kami menghasilkan bingkai tanpa lubang atau artefak dibandingkan dengan pembengkokan rata-rata langsung dan metode pembengkokan kedalaman garis dasar.
Aplikasi yang diperluas lebih lanjut
Para peneliti selanjutnya mendemonstrasikan penerapan penambahan efek dinamis pada satu gambar statis menggunakan representasi gerak dan proses animasi yang diusulkan oleh para peneliti.
Gambar ke video
Sistem peneliti menganimasikan satu gambar statis dengan terlebih dahulu memprediksi tekstur gerakan acak saraf dari gambar masukan, dan dengan menerapkan modul rendering berbasis gambar milik peneliti ke bidang perpindahan gerakan yang berasal dari tekstur gerakan acak.
Karena kami memodelkan gerakan adegan secara eksplisit, hal ini memungkinkan kami menghasilkan video gerakan lambat dengan menginterpolasi bidang perpindahan gerakan secara linier dan memperbesar (atau memperkecil) gerakan animasi dengan menyesuaikan amplitudo koefisien tekstur gerakan acak yang diprediksi.
Lingkaran Mulus
Terkadang berguna untuk menghasilkan video dengan gerakan perulangan yang mulus, artinya tidak ada diskontinuitas dalam tampilan atau gerakan antara awal dan akhir video.
Sayangnya, sulit untuk menemukan kumpulan pelatihan besar yang berisi video perulangan yang mulus. Oleh karena itu, para peneliti merancang metode menggunakan model difusi gerak para peneliti, yang dilatih pada klip video non-perulangan biasa, untuk menghasilkan video perulangan yang mulus.
Terinspirasi oleh penelitian terbaru tentang pengeditan gambar terpandu, pendekatan para peneliti adalah teknik panduan gerak yang menggunakan batasan loop eksplisit untuk memandu proses pengambilan sampel penolakan gerakan.
Secara khusus, selama setiap langkah penolakan berulang pada fase inferensi, para peneliti menyertakan sinyal panduan gerakan tambahan di samping panduan bebas pengklasifikasi standar, di mana kami memaksa setiap piksel berada pada posisi bingkai awal dan akhir serta Kecepatannya semirip mungkin.
Hasilkan animasi interaktif dari satu gambar
Spektrum gerak spasial gambar dalam video pengamatan suatu objek yang berosilasi mendekati dasar modal getaran fisik objek tersebut.
Bentuk modal menangkap dinamika osilasi suatu objek pada frekuensi yang berbeda, sehingga proyeksi ruang gambar dari pola getaran suatu objek dapat digunakan untuk memodelkan respons objek terhadap gaya yang ditentukan pengguna seperti sodokan atau tarikan.
Oleh karena itu, peneliti menggunakan teknik analisis modal yang telah dipelajari sebelumnya, yang mengasumsikan bahwa gerak suatu benda dapat dijelaskan melalui superposisi sekumpulan resonator.
Hal ini memungkinkan para peneliti untuk menulis bidang perpindahan gerak ruang gambar dua dimensi dari respon fisik benda sebagai jumlah tertimbang dari koefisien spektrum Fourier dan koordinat modal kompleks dari setiap langkah waktu simulasi t, dan waktu t.
Evaluasi Eksperimental
Tim peneliti melakukan perbandingan kuantitatif antara metode terbaru dan metode dasar pada serangkaian pengujian klip video yang tidak terlihat.
Ditemukan bahwa pendekatan Google secara signifikan mengungguli dasar-dasar animasi gambar tunggal sebelumnya dalam kualitas sintesis gambar dan video.
Secara khusus, jarak FVD dan DT-FVD Google jauh lebih rendah, yang menunjukkan bahwa video yang dihasilkan dengan metode ini lebih realistis dan koheren secara temporal.
Selanjutnya, Gambar 6 menunjukkan jarak video jendela geser FID dan jendela geser DT-FVD yang dihasilkan dengan metode berbeda.
Karena Google menggunakan representasi tekstur gerakan stokastik global, pendekatannya menghasilkan video yang lebih konsisten dari waktu ke waktu dan tidak menyimpang atau menurun seiring waktu.
Selain itu, tim Google melakukan perbandingan kualitatif visual antara metodenya sendiri dan video yang dihasilkan oleh baseline dengan dua cara.
Pertama, potongan spatiotemporal Xt dari video yang dihasilkan ditampilkan, seperti yang ditunjukkan pada Gambar 7.
Dinamika video yang dihasilkan Google lebih mirip dengan pola gerakan yang diamati pada video referensi nyata (kolom kedua). Garis dasar seperti I2V dan MCVD acak tidak dapat mensimulasikan penampakan dan pergerakan secara realistis seiring waktu.
Kami juga memprediksi gambar dengan memvisualisasikannya
dan bidang perpindahan gerak yang sesuai pada waktu t = 128. Perbandingan kualitatif kualitas setiap kerangka dan gerak yang dihasilkan dalam metode yang berbeda.
Metode yang dihasilkan Google menghasilkan bingkai yang menunjukkan lebih sedikit artefak dan distorsi dibandingkan metode lain, dan bidang gerak 2D terkait paling mirip dengan bidang perpindahan referensi yang diperkirakan dari video nyata terkait.
Studi ablasi: Terlihat dari Tabel 2 bahwa semua konfigurasi yang lebih sederhana atau alternatif menghasilkan kinerja yang lebih buruk dibandingkan dengan model lengkap.
tentang Penulis
Zhengqi Li
Zhengqi Li adalah ilmuwan riset di Google Research. Minat penelitiannya meliputi visi komputer 3D/4D, rendering berbasis gambar, dan fotografi komputasi, khususnya pada gambar dan video alam liar. Ia menerima gelar PhD di bidang Ilmu Komputer dari Cornell University, di mana ia dibimbing oleh Noah Snavely.
Beliau adalah penerima Penghargaan Honorable Mention Kertas Terbaik CVPR 2019, Beasiswa Google PhD 2020, Adobe Research Fellowship 2020, Penghargaan 100 Bintang Baru China Top 100 Kecerdasan Buatan Global Baidu 2021, dan Penghargaan Kehormatan Kertas Terbaik CVPR 2023.
Referensi:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Dengan tarikan dan tarikan, mawar menjadi hidup! Google mengusulkan dinamika gambar generatif, dan semuanya akan hidup mulai sekarang
Sumber asli: Xinzhiyuan
Lihat, dengan tarikan lembut, mawar itu mulai bergerak.
Akhirnya, hal ini diterapkan, dan bahkan putaran video tanpa batas dapat dihasilkan dengan berinteraksi dengan satu gambar.
Di masa depan, imajinasi seniman tidak lagi dibatasi oleh kerangka tradisional, dan segalanya akan mungkin terjadi dalam ruang gambar yang dinamis ini.
Semua yang ada di gambar menjadi hidup
Pergerakan segala sesuatu di dunia bersifat multimoda.
Pakaian yang tergantung di halaman bergoyang maju mundur mengikuti angin.
Dengan mengambil sebuah foto, peneliti mungkin bisa membayangkan bagaimana pergerakannya saat foto itu diambil.
Mengingat perkembangan model generatif saat ini, khususnya model difusi, dimungkinkan untuk memodelkan distribusi yang sangat kaya dan kompleks.
Hal ini memungkinkan banyak penerapan yang sebelumnya tidak mungkin dilakukan, seperti menghasilkan gambar realistis yang sewenang-wenang dari teks. Selain berguna pada bidang gambar, model difusi juga dapat digunakan untuk memodelkan bidang video.
Model dilatih berdasarkan lintasan gerak yang secara otomatis diekstraksi dari sejumlah besar rangkaian video nyata.
Berdasarkan gambar masukan, model yang dilatih memprediksi "tekstur gerakan stokastik saraf": sekumpulan koefisien gerakan dasar yang menggambarkan lintasan masa depan setiap piksel.
Kemudian, model difusi digunakan untuk memprediksi “tekstur gerak stokastik saraf.” Model ini hanya menghasilkan koefisien untuk satu frekuensi pada satu waktu, namun mengoordinasikan prediksi ini pada pita frekuensi yang berbeda.
Tekstur ruang frekuensi yang dihasilkan dapat diubah menjadi lintasan gerak piksel jarak jauh yang padat yang dapat digunakan untuk mensintesis bingkai masa depan, mengubah gambar statis menjadi animasi realistis.
Pengenalan Teknologi
Berdasarkan satu gambar
Sistem yang dibangun oleh peneliti terdiri dari dua modul: “modul prediksi tindakan” dan “modul rendering berbasis gambar”.
Pertama, para peneliti menggunakan “model difusi laten” sebagai gambar masukan
Pada langkah kedua, transformasi Fourier diskrit terbalik digunakan untuk mengubah prediksi tekstur gerak acak menjadi serangkaian bidang perpindahan gerak.
Bidang perpindahan gerak ini akan digunakan untuk menentukan posisi setiap piksel masukan pada setiap langkah waktu mendatang.
Dengan bidang gerak yang diprediksi ini, modul rendering para peneliti menggunakan teknik rendering berbasis gambar untuk mengambil fitur pengkodean dari gambar masukan RGB dan menerjemahkan fitur yang dipilih ini ke dalam bingkai keluaran melalui jaringan sintesis gambar.
Tekstur Gerakan Acak Neural
tekstur gerak
Dalam penelitian sebelumnya, tekstur gerak mendefinisikan serangkaian peta perpindahan 2D yang bervariasi terhadap waktu.
Untuk menghasilkan kerangka masa depan pada waktu t, peta perpindahan yang sesuai dapat digunakan, dari
Seperti yang telah ditunjukkan sebelumnya dalam penelitian grafik komputer, banyak gerakan alami, terutama gerakan osilasi, dapat digambarkan sebagai superposisi dari sekumpulan kecil osilator harmonik, yang diwakili oleh frekuensi, amplitudo, dan fase yang berbeda.
Salah satu cara untuk memperkenalkan keacakan dalam gerakan adalah dengan mengintegrasikan medan kebisingan. Namun seperti yang ditunjukkan oleh penelitian sebelumnya, menambahkan noise acak secara langsung ke domain spasial dan temporal dari bidang gerak yang diprediksi sering kali menghasilkan animasi yang tidak realistis atau tidak stabil.
Lebih lanjut, dengan menggunakan tekstur gerak dalam domain temporal yang ditentukan di atas berarti bidang perpindahan T 2D perlu diprediksi untuk menghasilkan segmen video yang berisi bingkai T. Untuk menghindari prediksi representasi keluaran yang begitu besar, banyak metode animasi sebelumnya menghasilkan bingkai video secara otomatis atau secara independen memprediksi setiap bingkai keluaran di masa mendatang melalui penyematan temporal tambahan.
Namun, tidak ada strategi yang menjamin bahwa frame video yang dihasilkan konsisten secara temporal dalam jangka panjang, dan keduanya mungkin menghasilkan video yang menyimpang atau menyimpang dari waktu ke waktu.
Untuk mengatasi masalah di atas, peneliti merepresentasikan tekstur gerakan per piksel dari adegan input dalam domain frekuensi (yaitu, lintasan gerakan lengkap semua piksel) dan merumuskan masalah prediksi gerakan sebagai konversi gambar-ke-gambar multi-modal. tugas.
Para peneliti menggunakan model difusi laten (LDM) untuk menghasilkan tekstur gerak acak yang terdiri dari spektogram gerak 2D saluran 4K, dimana K << T adalah jumlah frekuensi yang dimodelkan, dan pada setiap frekuensi, peneliti memerlukan empat skalar untuk mewakili koefisien Fourier kompleks dalam dimensi x dan y.
Gambar di bawah menunjukkan tekstur gerakan acak saraf ini.
Untuk menguji hipotesis ini, para peneliti menghitung spektrum kekuatan rata-rata gerakan yang diekstraksi dari 1.000 sampel klip video nyata berdurasi 5 detik yang diambil secara acak. Seperti yang ditunjukkan pada gambar kiri di bawah, daya terutama terkonsentrasi pada komponen frekuensi rendah.
Dalam praktiknya, para peneliti menemukan bahwa koefisien Fourier K = 16 pertama cukup untuk mereproduksi gerakan alami asli dalam serangkaian video dan adegan nyata.
Gunakan model difusi untuk memprediksi tindakan
Para peneliti memilih model difusi laten (LDM) sebagai inti modul prediksi tindakan peneliti karena LDM lebih efisien secara komputasi dibandingkan model difusi ruang piksel dengan tetap menjaga kualitas pembangkitan.
LDM standar terutama mencakup dua modul:
Autoencoder variasional (VAE) mengompresi gambar masukan ke dalam ruang laten melalui encoder z = E(I), dan kemudian merekonstruksi masukan dari fitur laten melalui decoder I = D(z).
Model difusi berdasarkan U-Net, yang belajar menolak fitur laten secara berulang mulai dari derau acak Gaussian.
Pelatihan para peneliti diterapkan bukan untuk memasukkan gambar tetapi pada tekstur tindakan acak dari rangkaian video nyata, yang dikodekan dan kemudian disebarkan n langkah dalam jadwal varians yang telah ditentukan untuk menghasilkan variabel laten yang berisik zn.
Normalisasi adaptif frekuensi
Para peneliti mengamati masalah di mana tekstur tindakan acak memiliki sifat distribusi frekuensi tertentu. Seperti yang ditunjukkan pada panel kiri gambar di atas, amplitudo tekstur gerak para peneliti berkisar antara 0 hingga 100, dan berkurang secara eksponensial seiring dengan meningkatnya frekuensi.
Karena model difusi memerlukan nilai keluaran antara 0 dan 1 untuk pelatihan dan denoising yang stabil, peneliti harus menormalkan koefisien S yang diekstraksi dari video nyata sebelum melatihnya.
Jika peneliti menskalakan besaran koefisien S menjadi [0,1] berdasarkan lebar dan tinggi gambar, maka hampir semua koefisien akan mendekati nol pada frekuensi yang lebih tinggi, seperti yang ditunjukkan pada gambar di atas (kanan).
Model yang dilatih berdasarkan data tersebut mungkin menghasilkan tindakan yang tidak akurat karena selama inferensi, bahkan kesalahan prediksi yang kecil pun dapat menyebabkan kesalahan relatif yang besar setelah denormalisasi, ketika S yang dinormalisasi Besarnya koefisien sangat mendekati nol.
Untuk mengatasi masalah ini, para peneliti menggunakan teknik normalisasi adaptif frekuensi yang sederhana namun efektif. Secara khusus, para peneliti pertama-tama menormalkan koefisien Fourier pada setiap frekuensi secara independen berdasarkan statistik yang dihitung dari set pelatihan.
Penyangkalan terkoordinasi frekuensi
Cara mudah untuk memprediksi tekstur aksi acak S dengan pita frekuensi K adalah dengan mengeluarkan tensor dengan saluran 4K dari U-Net difusi standar.
Namun, melatih model untuk menghasilkan saluran dalam jumlah besar sering kali menghasilkan keluaran yang terlalu lancar dan tidak akurat.
Pendekatan lain adalah dengan memprediksi spektogram aksi pada masing-masing frekuensi secara independen dengan memasukkan penyematan frekuensi tambahan ke dalam LDM, namun hal ini menyebabkan prediksi yang tidak relevan dalam domain frekuensi sehingga tindakan menjadi tidak realistis.
Oleh karena itu, para peneliti mengusulkan strategi denoising terkoordinasi frekuensi yang ditunjukkan pada gambar di bawah. Secara khusus, dengan memberikan gambar masukan I0, pertama-tama kami melatih LDM untuk memprediksi peta tekstur tindakan acak dengan empat saluran untuk setiap frekuensi individu, di mana kami memasukkan penyematan frekuensi tambahan ke dalam LDM bersama dengan penyematan langkah waktu ke dalam jaringan.
Para peneliti selanjutnya menjelaskan cara merender bingkai ˆIt di waktu mendatang t menggunakan tekstur gerakan acak S yang diprediksi untuk gambar masukan tertentu I0. Pertama, peneliti menggunakan FFT (Fast Fourier Transform) domain waktu terbalik untuk menghitung bidang lintasan gerak pada setiap titik piksel p.
Kami bersama-sama melatih ekstraktor fitur dan jaringan sintesis dengan bingkai awal dan target yang diambil sampelnya secara acak dari video nyata, di mana kami menggunakan perkiraan bidang aliran dari I0 ke It untuk membelokkan fitur yang dikodekan dari I0 dan menggunakan kehilangan persepsi VGG untuk memprediksi ˆIa melakukan pengawasan .
Aplikasi yang diperluas lebih lanjut
Para peneliti selanjutnya mendemonstrasikan penerapan penambahan efek dinamis pada satu gambar statis menggunakan representasi gerak dan proses animasi yang diusulkan oleh para peneliti.
Gambar ke video
Sistem peneliti menganimasikan satu gambar statis dengan terlebih dahulu memprediksi tekstur gerakan acak saraf dari gambar masukan, dan dengan menerapkan modul rendering berbasis gambar milik peneliti ke bidang perpindahan gerakan yang berasal dari tekstur gerakan acak.
Karena kami memodelkan gerakan adegan secara eksplisit, hal ini memungkinkan kami menghasilkan video gerakan lambat dengan menginterpolasi bidang perpindahan gerakan secara linier dan memperbesar (atau memperkecil) gerakan animasi dengan menyesuaikan amplitudo koefisien tekstur gerakan acak yang diprediksi.
Lingkaran Mulus
Terkadang berguna untuk menghasilkan video dengan gerakan perulangan yang mulus, artinya tidak ada diskontinuitas dalam tampilan atau gerakan antara awal dan akhir video.
Sayangnya, sulit untuk menemukan kumpulan pelatihan besar yang berisi video perulangan yang mulus. Oleh karena itu, para peneliti merancang metode menggunakan model difusi gerak para peneliti, yang dilatih pada klip video non-perulangan biasa, untuk menghasilkan video perulangan yang mulus.
Terinspirasi oleh penelitian terbaru tentang pengeditan gambar terpandu, pendekatan para peneliti adalah teknik panduan gerak yang menggunakan batasan loop eksplisit untuk memandu proses pengambilan sampel penolakan gerakan.
Secara khusus, selama setiap langkah penolakan berulang pada fase inferensi, para peneliti menyertakan sinyal panduan gerakan tambahan di samping panduan bebas pengklasifikasi standar, di mana kami memaksa setiap piksel berada pada posisi bingkai awal dan akhir serta Kecepatannya semirip mungkin.
Hasilkan animasi interaktif dari satu gambar
Spektrum gerak spasial gambar dalam video pengamatan suatu objek yang berosilasi mendekati dasar modal getaran fisik objek tersebut.
Bentuk modal menangkap dinamika osilasi suatu objek pada frekuensi yang berbeda, sehingga proyeksi ruang gambar dari pola getaran suatu objek dapat digunakan untuk memodelkan respons objek terhadap gaya yang ditentukan pengguna seperti sodokan atau tarikan.
Oleh karena itu, peneliti menggunakan teknik analisis modal yang telah dipelajari sebelumnya, yang mengasumsikan bahwa gerak suatu benda dapat dijelaskan melalui superposisi sekumpulan resonator.
Hal ini memungkinkan para peneliti untuk menulis bidang perpindahan gerak ruang gambar dua dimensi dari respon fisik benda sebagai jumlah tertimbang dari koefisien spektrum Fourier dan koordinat modal kompleks dari setiap langkah waktu simulasi t, dan waktu t.
Evaluasi Eksperimental
Tim peneliti melakukan perbandingan kuantitatif antara metode terbaru dan metode dasar pada serangkaian pengujian klip video yang tidak terlihat.
Ditemukan bahwa pendekatan Google secara signifikan mengungguli dasar-dasar animasi gambar tunggal sebelumnya dalam kualitas sintesis gambar dan video.
Secara khusus, jarak FVD dan DT-FVD Google jauh lebih rendah, yang menunjukkan bahwa video yang dihasilkan dengan metode ini lebih realistis dan koheren secara temporal.
Karena Google menggunakan representasi tekstur gerakan stokastik global, pendekatannya menghasilkan video yang lebih konsisten dari waktu ke waktu dan tidak menyimpang atau menurun seiring waktu.
Pertama, potongan spatiotemporal Xt dari video yang dihasilkan ditampilkan, seperti yang ditunjukkan pada Gambar 7.
Dinamika video yang dihasilkan Google lebih mirip dengan pola gerakan yang diamati pada video referensi nyata (kolom kedua). Garis dasar seperti I2V dan MCVD acak tidak dapat mensimulasikan penampakan dan pergerakan secara realistis seiring waktu.
Metode yang dihasilkan Google menghasilkan bingkai yang menunjukkan lebih sedikit artefak dan distorsi dibandingkan metode lain, dan bidang gerak 2D terkait paling mirip dengan bidang perpindahan referensi yang diperkirakan dari video nyata terkait.
tentang Penulis
Zhengqi Li
Beliau adalah penerima Penghargaan Honorable Mention Kertas Terbaik CVPR 2019, Beasiswa Google PhD 2020, Adobe Research Fellowship 2020, Penghargaan 100 Bintang Baru China Top 100 Kecerdasan Buatan Global Baidu 2021, dan Penghargaan Kehormatan Kertas Terbaik CVPR 2023.
Referensi: