Saat bepergian saat liburan, mengambil foto adalah suatu keharusan. Namun, sebagian besar foto yang diambil di tempat-tempat indah kurang lebih penuh penyesalan, entah ada sesuatu yang ekstra di latar belakang, atau ada sesuatu yang hilang.
Sumber gambar: Dihasilkan oleh AI Tanpa Batas
Mendapatkan citra yang "sempurna" telah menjadi salah satu tujuan jangka panjang para peneliti CV. Baru-baru ini, para peneliti dari Google Research dan Cornell University berkolaborasi untuk mengusulkan teknologi “Penyelesaian Gambar Asli”—RealFill, sebuah model generatif untuk penyelesaian gambar.
Keuntungan model RealFill adalah model tersebut dapat dipersonalisasi dengan sejumlah kecil gambar referensi pemandangan yang tidak perlu disejajarkan dengan gambar target dan bahkan dapat sangat bervariasi dalam hal sudut pandang, kondisi pencahayaan, bukaan kamera, atau gaya gambar. . Setelah personalisasi selesai, RealFill dapat melengkapi gambar target dengan konten yang menarik secara visual dengan cara yang sesuai dengan pemandangan aslinya.
* Tautan kertas:
*Halaman proyek:
Model inpainting dan outpainting adalah teknologi yang dapat menghasilkan konten gambar berkualitas tinggi dan masuk akal di area gambar yang tidak diketahui. Namun, konten yang dihasilkan oleh model ini tentu saja tidak realistis karena model ini beroperasi dalam konteks adegan nyata. Terdapat kekurangan dalam informasi . Sebaliknya, RealFill menghasilkan konten yang “seharusnya” ada, sehingga hasil penyelesaian gambar menjadi lebih realistis.
Para penulis menunjukkan dalam makalah bahwa mereka mendefinisikan masalah penyelesaian gambar baru - "Penyelesaian Gambar Asli". Berbeda dari restorasi gambar generatif tradisional (konten yang menggantikan area yang hilang mungkin tidak konsisten dengan pemandangan aslinya), tujuan penyelesaian gambar sebenarnya adalah membuat konten yang telah selesai dibuat senyata mungkin dengan pemandangan aslinya, menggunakan konten yang "seharusnya muncul sana". Lengkapi gambar target dengan konten yang “mungkin ada di luar sana”.
Penulis menyatakan bahwa RealFill adalah metode pertama yang memperluas kekuatan ekspresif model inpainting gambar generatif dengan menambahkan lebih banyak kondisi ke proses (yaitu, menambahkan gambar referensi).
RealFill secara signifikan mengungguli metode yang ada pada tolok ukur penyelesaian gambar baru yang mencakup serangkaian skenario yang beragam dan menantang.
metode
Tujuan RealFill adalah menggunakan sejumlah kecil gambar referensi untuk melengkapi bagian yang hilang dari gambar target tertentu dengan tetap menjaga keasliannya. Secara khusus, Anda diberikan hingga 5 gambar referensi, dan gambar target yang secara kasar menangkap pemandangan yang sama (tetapi mungkin memiliki tata letak atau tampilan berbeda).
Untuk adegan tertentu, para peneliti pertama-tama membuat model generatif yang dipersonalisasi dengan menyempurnakan model difusi inpainting yang telah dilatih sebelumnya pada gambar referensi dan target. Proses penyetelan halus ini dirancang agar model penyetelan halus tidak hanya mempertahankan gambar sebelumnya yang bagus, namun juga mempelajari konten pemandangan, pencahayaan, dan gaya pada gambar masukan. Model yang telah disempurnakan ini kemudian digunakan untuk mengisi wilayah yang hilang pada gambar target melalui proses pengambilan sampel difusi standar.
Perlu dicatat bahwa untuk nilai penerapan praktis, model ini secara khusus berfokus pada kasus yang lebih menantang dan tidak dibatasi, di mana gambar target dan gambar referensi mungkin memiliki sudut pandang, kondisi lingkungan, bukaan kamera, gaya gambar, dan bahkan pergerakan yang sangat berbeda. .
Hasil percobaan
Berdasarkan gambar referensi di sebelah kiri, RealFill dapat memperluas (uncrop) atau memperbaiki (inpaint) gambar target di sebelah kanan. Hasil yang dihasilkan tidak hanya menarik secara visual, namun juga konsisten dengan gambar referensi, meskipun gambar referensi dan gambar target berada pada sudut pandang yang sama. , terdapat perbedaan besar dalam bukaan, pencahayaan, gaya gambar, dan pergerakan objek.
Efek keluaran model RealFill. Dengan adanya gambar referensi di sebelah kiri, RealFill dapat memperluas gambar target yang sesuai di sebelah kanan. Area di dalam kotak putih diberikan ke jaringan sebagai piksel yang diketahui, sedangkan area di luar kotak putih dihasilkan. Hasilnya menunjukkan bahwa RealFill dapat menghasilkan gambar berkualitas tinggi yang sesuai dengan gambar referensi meskipun terdapat perbedaan besar antara gambar referensi dan gambar target, termasuk sudut pandang, bukaan, pencahayaan, gaya gambar, dan gerakan objek. Sumber: Kertas
Eksperimen terkontrol
Para peneliti membandingkan model RealFill dengan metode dasar lainnya. Sebagai perbandingan, RealFill menghasilkan hasil berkualitas tinggi dan berkinerja lebih baik dalam hal ketepatan pemandangan dan konsistensi dengan gambar referensi.
Paint-by-Example tidak dapat mencapai fidelitas adegan yang tinggi karena bergantung pada penyematan CLIP, yang hanya dapat menangkap informasi semantik tingkat tinggi.
Meskipun Stable Diffusion Inpainting dapat memberikan hasil yang tampaknya masuk akal, karena kemampuan ekspresifnya yang terbatas, hasil akhir yang dihasilkan tidak konsisten dengan gambar referensi.
Perbandingan RealFill dengan dua metode dasar lainnya. Area yang ditutupi oleh topeng putih transparan adalah bagian gambar target yang tidak dimodifikasi. Sumber: realfill.github.io
Keterbatasan
Para peneliti juga membahas beberapa potensi masalah dan keterbatasan model RealFill, termasuk kecepatan pemrosesan, kemampuan menangani perubahan sudut pandang, dan kemampuan menangani situasi yang menantang bagi model yang mendasarinya. Secara khusus:
RealFill memerlukan proses penyesuaian berbasis gradien pada gambar masukan, yang membuatnya relatif lambat untuk dijalankan.
Ketika perubahan sudut pandang antara gambar referensi dan gambar target sangat besar, RealFill sering kali tidak dapat memulihkan pemandangan 3D, terutama bila hanya ada satu gambar referensi.
Karena RealFill terutama mengandalkan gambar sebelumnya yang diwarisi dari model dasar yang telah dilatih sebelumnya, RealFill tidak dapat menangani situasi yang menantang untuk model dasar, seperti model difusi stabil yang tidak dapat menangani teks dengan baik.
Akhir kata, penulis mengucapkan terima kasih kepada para kolaborator:
Kami mengucapkan terima kasih kepada Rundi Wu, Qianqian Wang, Viraj Shah, Ethan Weber, Zhengqi Li, Kyle Genova, Boyang Deng, Maya Goldenberg, Noah Snavely, Ben Poole, Ben Mildenhall, Alex Rav-Acha, Pratul Srinivasan, Dor Verbin, dan Jon Barron atas diskusi dan masukannya yang berharga, dan terima kasih juga kepada Zeya Peng, Rundi Wu, dan Shan Nan atas kontribusinya pada kumpulan data evaluasi. Kami sangat berterima kasih kepada Jason Baldridge, Kihyuk Sohn, Kathy Meier-Hellstern, dan Nicole Brichtova atas masukan dan dukungan mereka terhadap proyek ini.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Keasliannya luar biasa. Google dan Cornell mengusulkan teknologi penyelesaian gambar nyata RealFill
Saat bepergian saat liburan, mengambil foto adalah suatu keharusan. Namun, sebagian besar foto yang diambil di tempat-tempat indah kurang lebih penuh penyesalan, entah ada sesuatu yang ekstra di latar belakang, atau ada sesuatu yang hilang.
Mendapatkan citra yang "sempurna" telah menjadi salah satu tujuan jangka panjang para peneliti CV. Baru-baru ini, para peneliti dari Google Research dan Cornell University berkolaborasi untuk mengusulkan teknologi “Penyelesaian Gambar Asli”—RealFill, sebuah model generatif untuk penyelesaian gambar.
Keuntungan model RealFill adalah model tersebut dapat dipersonalisasi dengan sejumlah kecil gambar referensi pemandangan yang tidak perlu disejajarkan dengan gambar target dan bahkan dapat sangat bervariasi dalam hal sudut pandang, kondisi pencahayaan, bukaan kamera, atau gaya gambar. . Setelah personalisasi selesai, RealFill dapat melengkapi gambar target dengan konten yang menarik secara visual dengan cara yang sesuai dengan pemandangan aslinya.
Model inpainting dan outpainting adalah teknologi yang dapat menghasilkan konten gambar berkualitas tinggi dan masuk akal di area gambar yang tidak diketahui. Namun, konten yang dihasilkan oleh model ini tentu saja tidak realistis karena model ini beroperasi dalam konteks adegan nyata. Terdapat kekurangan dalam informasi . Sebaliknya, RealFill menghasilkan konten yang “seharusnya” ada, sehingga hasil penyelesaian gambar menjadi lebih realistis.
Para penulis menunjukkan dalam makalah bahwa mereka mendefinisikan masalah penyelesaian gambar baru - "Penyelesaian Gambar Asli". Berbeda dari restorasi gambar generatif tradisional (konten yang menggantikan area yang hilang mungkin tidak konsisten dengan pemandangan aslinya), tujuan penyelesaian gambar sebenarnya adalah membuat konten yang telah selesai dibuat senyata mungkin dengan pemandangan aslinya, menggunakan konten yang "seharusnya muncul sana". Lengkapi gambar target dengan konten yang “mungkin ada di luar sana”.
Penulis menyatakan bahwa RealFill adalah metode pertama yang memperluas kekuatan ekspresif model inpainting gambar generatif dengan menambahkan lebih banyak kondisi ke proses (yaitu, menambahkan gambar referensi).
RealFill secara signifikan mengungguli metode yang ada pada tolok ukur penyelesaian gambar baru yang mencakup serangkaian skenario yang beragam dan menantang.
metode
Tujuan RealFill adalah menggunakan sejumlah kecil gambar referensi untuk melengkapi bagian yang hilang dari gambar target tertentu dengan tetap menjaga keasliannya. Secara khusus, Anda diberikan hingga 5 gambar referensi, dan gambar target yang secara kasar menangkap pemandangan yang sama (tetapi mungkin memiliki tata letak atau tampilan berbeda).
Untuk adegan tertentu, para peneliti pertama-tama membuat model generatif yang dipersonalisasi dengan menyempurnakan model difusi inpainting yang telah dilatih sebelumnya pada gambar referensi dan target. Proses penyetelan halus ini dirancang agar model penyetelan halus tidak hanya mempertahankan gambar sebelumnya yang bagus, namun juga mempelajari konten pemandangan, pencahayaan, dan gaya pada gambar masukan. Model yang telah disempurnakan ini kemudian digunakan untuk mengisi wilayah yang hilang pada gambar target melalui proses pengambilan sampel difusi standar.
Perlu dicatat bahwa untuk nilai penerapan praktis, model ini secara khusus berfokus pada kasus yang lebih menantang dan tidak dibatasi, di mana gambar target dan gambar referensi mungkin memiliki sudut pandang, kondisi lingkungan, bukaan kamera, gaya gambar, dan bahkan pergerakan yang sangat berbeda. .
Hasil percobaan
Berdasarkan gambar referensi di sebelah kiri, RealFill dapat memperluas (uncrop) atau memperbaiki (inpaint) gambar target di sebelah kanan. Hasil yang dihasilkan tidak hanya menarik secara visual, namun juga konsisten dengan gambar referensi, meskipun gambar referensi dan gambar target berada pada sudut pandang yang sama. , terdapat perbedaan besar dalam bukaan, pencahayaan, gaya gambar, dan pergerakan objek.
Eksperimen terkontrol
Para peneliti membandingkan model RealFill dengan metode dasar lainnya. Sebagai perbandingan, RealFill menghasilkan hasil berkualitas tinggi dan berkinerja lebih baik dalam hal ketepatan pemandangan dan konsistensi dengan gambar referensi.
Paint-by-Example tidak dapat mencapai fidelitas adegan yang tinggi karena bergantung pada penyematan CLIP, yang hanya dapat menangkap informasi semantik tingkat tinggi.
Meskipun Stable Diffusion Inpainting dapat memberikan hasil yang tampaknya masuk akal, karena kemampuan ekspresifnya yang terbatas, hasil akhir yang dihasilkan tidak konsisten dengan gambar referensi.
Keterbatasan
Para peneliti juga membahas beberapa potensi masalah dan keterbatasan model RealFill, termasuk kecepatan pemrosesan, kemampuan menangani perubahan sudut pandang, dan kemampuan menangani situasi yang menantang bagi model yang mendasarinya. Secara khusus:
RealFill memerlukan proses penyesuaian berbasis gradien pada gambar masukan, yang membuatnya relatif lambat untuk dijalankan.
Ketika perubahan sudut pandang antara gambar referensi dan gambar target sangat besar, RealFill sering kali tidak dapat memulihkan pemandangan 3D, terutama bila hanya ada satu gambar referensi.
Karena RealFill terutama mengandalkan gambar sebelumnya yang diwarisi dari model dasar yang telah dilatih sebelumnya, RealFill tidak dapat menangani situasi yang menantang untuk model dasar, seperti model difusi stabil yang tidak dapat menangani teks dengan baik.
Kami mengucapkan terima kasih kepada Rundi Wu, Qianqian Wang, Viraj Shah, Ethan Weber, Zhengqi Li, Kyle Genova, Boyang Deng, Maya Goldenberg, Noah Snavely, Ben Poole, Ben Mildenhall, Alex Rav-Acha, Pratul Srinivasan, Dor Verbin, dan Jon Barron atas diskusi dan masukannya yang berharga, dan terima kasih juga kepada Zeya Peng, Rundi Wu, dan Shan Nan atas kontribusinya pada kumpulan data evaluasi. Kami sangat berterima kasih kepada Jason Baldridge, Kihyuk Sohn, Kathy Meier-Hellstern, dan Nicole Brichtova atas masukan dan dukungan mereka terhadap proyek ini.