Model besar diagram Wensheng Apple diluncurkan: difusi matryoshka, mendukung resolusi 1024x1024

terbiasa dengan Difusi Stabil, dan sekarang akhirnya memiliki model Difusi Matryoshka, lagi-lagi dibuat oleh Apple.

Sumber asli: Heart of the Machine

Sumber gambar: Dihasilkan oleh Unbounded AI

Di era AI generatif, model difusi telah menjadi alat yang populer untuk aplikasi AI generatif seperti pembuatan gambar, video, 3D, audio, dan teks. Namun, memperluas model difusi ke domain resolusi tinggi masih merupakan tantangan besar, karena model harus mengkodekan ulang semua input resolusi tinggi pada setiap langkah. Memecahkan tantangan ini membutuhkan penggunaan arsitektur mendalam dengan blok perhatian, yang membuat pengoptimalan lebih sulit dan menghabiskan lebih banyak daya komputasi dan memori.

Apa yang harus dilakukan Beberapa pekerjaan baru-baru ini berfokus pada arsitektur jaringan yang efisien untuk gambar resolusi tinggi. Namun, tidak ada metode yang ada menunjukkan hasil di luar resolusi 512×512, dan kualitas generasi tertinggal dari metode kaskade atau laten arus utama.

Mari kita ambil OpenAI DALL-E 2, Google IMAGEN, dan NVIDIA eDiffI sebagai contoh, yang menghemat daya komputasi dengan mempelajari satu model resolusi rendah dan beberapa model difusi resolusi super, di mana setiap komponen dilatih secara terpisah. Di sisi lain, model difusi laten (LDM) hanya mempelajari model difusi resolusi rendah dan mengandalkan autoencoder resolusi tinggi yang terlatih secara individual. Untuk kedua skenario, alur multi-tahap mempersulit pelatihan dan inferensi, seringkali memerlukan penyetelan halus atau hiperparameterisasi.

Dalam makalah ini, para peneliti mengusulkan Matryoshka Diffusion Models (MDM), model difusi baru untuk generasi gambar resolusi tinggi end-to-end. Kode akan segera dirilis.

Alamat:

Gagasan utama yang disajikan dalam penelitian ini adalah untuk melakukan proses difusi bersama pada beberapa resolusi menggunakan arsitektur UNet bersarang sebagai bagian dari generasi resolusi tinggi.

Studi ini menemukan bahwa MDM, bersama dengan arsitektur UNet bersarang, mencapai 1) kehilangan multi-resolusi: sangat meningkatkan kecepatan konvergensi denoising input resolusi tinggi; 2) Rencana pelatihan progresif yang efisien, dimulai dengan melatih model difusi resolusi rendah dan secara progresif menambahkan input dan output resolusi tinggi sesuai rencana. Hasil eksperimen menunjukkan bahwa kombinasi kehilangan multi-resolusi dan pelatihan progresif dapat mencapai keseimbangan yang lebih baik antara biaya pelatihan dan kualitas model.

Studi ini mengevaluasi MDM dalam hal pembuatan gambar bersyarat kelas serta pembuatan gambar dan video bersyarat teks. MDM memungkinkan pelatihan model resolusi tinggi tanpa perlu kaskade atau difusi laten. Studi ablasi telah menunjukkan bahwa kehilangan multi-resolusi dan pelatihan progresif sangat meningkatkan efisiensi dan kualitas pelatihan.

Mari kita lihat gambar dan video yang dihasilkan MDM berikut.

Ikhtisar Metodologi

Menurut para peneliti, model difusi MDM dilatih end-to-end dalam resolusi tinggi saat menggunakan pembentukan data hierarkis. MDM pertama-tama menggeneralisasi model difusi standar di ruang difusi, dan kemudian mengusulkan arsitektur bersarang khusus dan proses pelatihan.

Pertama, mari kita lihat bagaimana menggeneralisasi model difusi standar di ruang yang diperluas.

Tidak seperti pendekatan kaskade atau laten, MDM mempelajari proses difusi tunggal dengan struktur hierarkis dengan memperkenalkan proses difusi multi-resolusi dalam ruang yang diperluas. Ini ditunjukkan pada Gambar 2 di bawah ini.

Secara khusus, diberikan titik data x ∈ R ^ N, peneliti mendefinisikan variabel laten tergantung waktu z \ _t = z \ _t ^ 1 , . . . , z \ _t ^ R ∈ R ^ N \ _1 + ... NR.

Menurut para peneliti, pemodelan difusi dalam ruang yang diperluas memiliki dua keuntungan. Pertama, kita umumnya prihatin dengan output resolusi penuh z_t^R selama inferensi, dan semua output resolusi menengah lainnya diperlakukan sebagai variabel laten tambahan z_t^r, menambah kompleksitas pada distribusi pemodelan. Kedua, dependensi multiresolusi memberikan kesempatan untuk berbagi bobot dan komputasi di seluruh z_t^r, mendistribusikan ulang komputasi dengan cara yang lebih efisien dan memungkinkan pelatihan dan inferensi yang efisien.

Mari kita lihat cara kerja nestedUNet.

Mirip dengan model difusi tipikal, para peneliti menerapkan MDM menggunakan struktur jaringan UNet, di mana koneksi residual dan blok komputasi digunakan secara paralel untuk melestarikan informasi input berbutir halus. Blok komputasi di sini berisi konvolusi multi-layer dan lapisan perhatian diri. Kode untuk NestedUNet dan UNet standar adalah sebagai berikut.

Selain kesederhanaannya dibandingkan dengan metode hierarkis lainnya, NestedUNet memungkinkan perhitungan dialokasikan dengan cara yang paling efisien. Seperti yang ditunjukkan pada Gambar 3 di bawah ini, peneliti awal menemukan bahwa MDM mencapai skalabilitas yang jauh lebih baik ketika sebagian besar parameter dan perhitungan dialokasikan pada resolusi terendah.

Akhirnya, ada belajar.

Para peneliti melatih MDM pada beberapa resolusi menggunakan target denoising konvensional, seperti yang ditunjukkan pada persamaan (3) di bawah ini.

Pelatihan progresif digunakan di sini. Para peneliti melatih MDM secara langsung end-to-end mengikuti persamaan di atas (3) dan menunjukkan konvergensi yang lebih baik daripada metode baseline asli. Mereka menemukan bahwa pelatihan model resolusi tinggi sangat dipercepat menggunakan metode pelatihan progresif sederhana yang mirip dengan yang diusulkan dalam makalah GAN.

Metode pelatihan ini menghindari pelatihan resolusi tinggi yang mahal sejak awal dan mempercepat konvergensi secara keseluruhan. Tidak hanya itu, mereka juga menggabungkan pelatihan resolusi campuran, yang melatih sampel dengan resolusi akhir yang berbeda secara bersamaan dalam satu batch.

** Eksperimen &; Hasil **

MDM adalah teknologi tujuan umum untuk masalah apa pun yang secara bertahap dapat memampatkan dimensi input. Perbandingan MDM dengan pendekatan baseline ditunjukkan pada Gambar 4 di bawah ini.

Tabel 1 menunjukkan perbandingan pada ImageNet (FID-50K) dan COCO (FID-30K).

Gambar 5, 6, dan 7 di bawah ini menggambarkan hasil MDM dalam pembuatan gambar (Gambar 5), teks-ke-gambar (Gambar 6), dan teks-ke-video (Gambar 7). Meskipun dilatih pada dataset yang relatif kecil, MDM telah menunjukkan kemampuan zero-shot yang kuat untuk menghasilkan gambar dan video resolusi tinggi.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)