Stable Diffusion'a alışkındır ve şimdi nihayet yine Apple tarafından yapılan bir Matryoshka Diffusion modeline sahiptir.
Orijinal kaynak: Makinenin Kalbi
Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu
Üretken yapay zeka çağında, difüzyon modelleri görüntü, video, 3D, ses ve metin oluşturma gibi üretken yapay zeka uygulamaları için popüler bir araç haline geldi. Bununla birlikte, modelin her adımda tüm yüksek çözünürlüklü girdileri yeniden kodlaması gerektiğinden, difüzyon modelini yüksek çözünürlüklü alana genişletmek hala büyük bir zorluktur. Bu zorlukların üstesinden gelmek, optimizasyonu zorlaştıran ve daha fazla bilgi işlem gücü ve bellek tüketen dikkat bloklarına sahip derin mimarilerin kullanılmasını gerektirir.
Ne yapalım? Son zamanlarda yapılan bazı çalışmalar, yüksek çözünürlüklü görüntüler için verimli ağ mimarilerine odaklanmıştır. Bununla birlikte, mevcut yöntemlerin hiçbiri 512×512 çözünürlüğün ötesinde sonuçlar göstermez ve üretim kalitesi, ana akım kaskad veya gizli yöntemlerin gerisinde kalır.
Örnek olarak, tek bir düşük çözünürlüklü model ve her bileşenin ayrı ayrı eğitildiği çoklu süper çözünürlüklü difüzyon modellerini öğrenerek bilgi işlem gücünden tasarruf sağlayan OpenAI DALL-E 2, Google IMAGEN ve NVIDIA eDiffI'yi ele alalım. Öte yandan, gizli difüzyon modelleri (LDM'ler) yalnızca düşük çözünürlüklü difüzyon modellerini öğrenir ve bireysel olarak eğitilmiş yüksek çözünürlüklü otomatik kodlayıcılara güvenir. Her iki senaryo için de çok aşamalı işlem hatları, genellikle ince ayar veya hiperparametreleştirme gerektiren eğitim ve çıkarımı karmaşıklaştırır.
Bu yazıda araştırmacılar, uçtan uca yüksek çözünürlüklü görüntü üretimi için yeni bir difüzyon modeli olan Matruşka Difüzyon Modellerini (MDM) önermektedir. Kod yakında yayınlanacak.
Adres:
Çalışmada sunulan ana fikir, yüksek çözünürlüklü üretimin bir parçası olarak iç içe geçmiş bir UNet mimarisi kullanarak çoklu çözünürlüklerde ortak bir difüzyon işlemi gerçekleştirmektir.
Çalışma, MDM'nin iç içe geçmiş UNet mimarisi ile birlikte 1) çoklu çözünürlük kaybı: yüksek çözünürlüklü giriş gürültü gidermenin yakınsama hızını büyük ölçüde iyileştirdiğini; 2) Düşük çözünürlüklü bir difüzyon modelinin eğitiminden başlayarak ve planlandığı gibi aşamalı olarak yüksek çözünürlüklü girdi ve çıktılar ekleyerek verimli bir aşamalı eğitim planı. Deneysel sonuçlar, çoklu çözünürlük kaybı ve aşamalı eğitim kombinasyonunun, eğitim maliyeti ve model kalitesi arasında daha iyi bir denge sağlayabileceğini göstermektedir.
Çalışma, MDM'yi sınıf koşullu görüntü oluşturmanın yanı sıra metin koşullu görüntü ve video oluşturma açısından değerlendirdi. MDM, basamaklara veya gizli difüzyona gerek kalmadan yüksek çözünürlüklü modellerin eğitilmesini sağlar. Ablasyon çalışmaları, hem çoklu çözünürlük kaybının hem de progresif antrenmanın antrenman verimliliğini ve kalitesini büyük ölçüde artırdığını göstermiştir.
MDM tarafından oluşturulan aşağıdaki görüntülere ve videolara bir göz atalım.
Metodolojiye Genel Bakış
Araştırmacılara göre, MDM difüzyon modeli, hiyerarşik veri oluşumunu kullanırken yüksek çözünürlükte uçtan uca eğitiliyor. MDM, önce difüzyon alanındaki standart difüzyon modelini genelleştirir ve ardından özel bir iç içe mimari ve eğitim süreci önerir.
İlk olarak, genişletilmiş uzayda standart difüzyon modelinin nasıl genelleştirileceğine bakalım.
Kademeli veya gizli yaklaşımlardan farklı olarak MDM, genişletilmiş bir alanda çok çözünürlüklü bir difüzyon süreci sunarak hiyerarşik bir yapıya sahip tek bir difüzyon sürecini öğrenir. Bu, aşağıdaki Şekil 2'de gösterilmiştir.
Spesifik olarak, bir x ∈ R^N veri noktası verildiğinde, araştırmacı zamana bağlı gizli değişken z_t = z_t^1 , . . . , z_t^R ∈ R^N_1+... NR.
Araştırmacılara göre, genişletilmiş bir uzayda difüzyon modellemesinin iki avantajı var. Birincisi, çıkarım sırasında genellikle tam çözünürlüklü çıktı z_t^R ile ilgileniriz ve diğer tüm orta çözünürlüklü çıktılar, modelleme dağılımına karmaşıklık katan ek gizli değişkenler z_t^r olarak ele alınır. İkincisi, çoklu çözünürlük bağımlılıkları, ağırlıkları ve hesaplamaları z_t^r arasında paylaşma, hesaplamayı daha verimli bir şekilde yeniden dağıtma ve verimli eğitim ve çıkarım sağlama fırsatı sağlar.
İç içe UNet'in nasıl çalıştığına bir göz atalım.
Tipik difüzyon modellerine benzer şekilde, araştırmacılar MDM'yi, ince taneli girdi bilgilerini korumak için artık bağlantıların ve hesaplama bloklarının paralel olarak kullanıldığı bir UNet ağ yapısı kullanarak uyguladılar. Buradaki hesaplama blokları, çok katmanlı evrişimler ve kendi kendine dikkat katmanları içerir. NestedUNet ve standart UNet kodları aşağıdaki gibidir.
NestedUNet, diğer hiyerarşik yöntemlere kıyasla basitliğinin yanı sıra hesaplamaların en verimli şekilde tahsis edilmesine olanak tanır. Aşağıdaki Şekil 3'te gösterildiği gibi, ilk araştırmacılar, parametrelerin ve hesaplamaların çoğu en düşük çözünürlükte tahsis edildiğinde MDM'nin önemli ölçüde daha iyi ölçeklenebilirlik elde ettiğini buldular.
Son olarak, öğrenme var.
Araştırmacılar, aşağıdaki denklem (3)'te gösterildiği gibi, geleneksel gürültü giderme hedeflerini kullanarak MDM'yi birden fazla çözünürlükte eğittiler.
Burada aşamalı eğitim kullanılır. Araştırmacılar, yukarıdaki denklemi (3) izleyerek MDM'yi doğrudan uçtan uca eğittiler ve orijinal temel yöntemden daha iyi yakınsama gösterdiler. Yüksek çözünürlüklü modellerin eğitiminin, GAN makalesinde önerilene benzer basit bir aşamalı eğitim yöntemi kullanılarak büyük ölçüde hızlandırıldığını buldular.
Bu eğitim yöntemi, başlangıçtan itibaren maliyetli, yüksek çözünürlüklü eğitimden kaçınır ve genel yakınsamayı hızlandırır. Sadece bu değil, aynı zamanda farklı nihai çözünürlüklere sahip numuneleri aynı anda tek bir partide eğiten karma çözünürlüklü eğitimi de dahil ettiler.
Deneyler ve Sonuçlar
MDM, giriş boyutlarını kademeli olarak sıkıştırabilen herhangi bir sorun için genel amaçlı bir teknolojidir. MDM'nin temel yaklaşımla karşılaştırılması aşağıdaki Şekil 4'te gösterilmektedir.
Tablo 1, ImageNet (FID-50K) ve COCO (FID-30K) üzerinde bir karşılaştırmayı göstermektedir.
Aşağıdaki Şekil 5, 6 ve 7, görüntü oluşturma (Şekil 5), metinden görüntüye (Şekil 6) ve metinden videoya (Şekil 7) MDM'nin sonuçlarını göstermektedir. Nispeten küçük bir veri kümesi üzerinde eğitilmiş olmasına rağmen, MDM, yüksek çözünürlüklü görüntüler ve videolar üretmek için güçlü bir sıfır atış yeteneği göstermiştir.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Apple'ın Wensheng diyagramının büyük modeli açıklandı: 1024x1024 çözünürlüğü destekleyen matruşka difüzyonu
Orijinal kaynak: Makinenin Kalbi
Üretken yapay zeka çağında, difüzyon modelleri görüntü, video, 3D, ses ve metin oluşturma gibi üretken yapay zeka uygulamaları için popüler bir araç haline geldi. Bununla birlikte, modelin her adımda tüm yüksek çözünürlüklü girdileri yeniden kodlaması gerektiğinden, difüzyon modelini yüksek çözünürlüklü alana genişletmek hala büyük bir zorluktur. Bu zorlukların üstesinden gelmek, optimizasyonu zorlaştıran ve daha fazla bilgi işlem gücü ve bellek tüketen dikkat bloklarına sahip derin mimarilerin kullanılmasını gerektirir.
Ne yapalım? Son zamanlarda yapılan bazı çalışmalar, yüksek çözünürlüklü görüntüler için verimli ağ mimarilerine odaklanmıştır. Bununla birlikte, mevcut yöntemlerin hiçbiri 512×512 çözünürlüğün ötesinde sonuçlar göstermez ve üretim kalitesi, ana akım kaskad veya gizli yöntemlerin gerisinde kalır.
Örnek olarak, tek bir düşük çözünürlüklü model ve her bileşenin ayrı ayrı eğitildiği çoklu süper çözünürlüklü difüzyon modellerini öğrenerek bilgi işlem gücünden tasarruf sağlayan OpenAI DALL-E 2, Google IMAGEN ve NVIDIA eDiffI'yi ele alalım. Öte yandan, gizli difüzyon modelleri (LDM'ler) yalnızca düşük çözünürlüklü difüzyon modellerini öğrenir ve bireysel olarak eğitilmiş yüksek çözünürlüklü otomatik kodlayıcılara güvenir. Her iki senaryo için de çok aşamalı işlem hatları, genellikle ince ayar veya hiperparametreleştirme gerektiren eğitim ve çıkarımı karmaşıklaştırır.
Bu yazıda araştırmacılar, uçtan uca yüksek çözünürlüklü görüntü üretimi için yeni bir difüzyon modeli olan Matruşka Difüzyon Modellerini (MDM) önermektedir. Kod yakında yayınlanacak.
Çalışmada sunulan ana fikir, yüksek çözünürlüklü üretimin bir parçası olarak iç içe geçmiş bir UNet mimarisi kullanarak çoklu çözünürlüklerde ortak bir difüzyon işlemi gerçekleştirmektir.
Çalışma, MDM'nin iç içe geçmiş UNet mimarisi ile birlikte 1) çoklu çözünürlük kaybı: yüksek çözünürlüklü giriş gürültü gidermenin yakınsama hızını büyük ölçüde iyileştirdiğini; 2) Düşük çözünürlüklü bir difüzyon modelinin eğitiminden başlayarak ve planlandığı gibi aşamalı olarak yüksek çözünürlüklü girdi ve çıktılar ekleyerek verimli bir aşamalı eğitim planı. Deneysel sonuçlar, çoklu çözünürlük kaybı ve aşamalı eğitim kombinasyonunun, eğitim maliyeti ve model kalitesi arasında daha iyi bir denge sağlayabileceğini göstermektedir.
Çalışma, MDM'yi sınıf koşullu görüntü oluşturmanın yanı sıra metin koşullu görüntü ve video oluşturma açısından değerlendirdi. MDM, basamaklara veya gizli difüzyona gerek kalmadan yüksek çözünürlüklü modellerin eğitilmesini sağlar. Ablasyon çalışmaları, hem çoklu çözünürlük kaybının hem de progresif antrenmanın antrenman verimliliğini ve kalitesini büyük ölçüde artırdığını göstermiştir.
MDM tarafından oluşturulan aşağıdaki görüntülere ve videolara bir göz atalım.
Araştırmacılara göre, MDM difüzyon modeli, hiyerarşik veri oluşumunu kullanırken yüksek çözünürlükte uçtan uca eğitiliyor. MDM, önce difüzyon alanındaki standart difüzyon modelini genelleştirir ve ardından özel bir iç içe mimari ve eğitim süreci önerir.
İlk olarak, genişletilmiş uzayda standart difüzyon modelinin nasıl genelleştirileceğine bakalım.
Kademeli veya gizli yaklaşımlardan farklı olarak MDM, genişletilmiş bir alanda çok çözünürlüklü bir difüzyon süreci sunarak hiyerarşik bir yapıya sahip tek bir difüzyon sürecini öğrenir. Bu, aşağıdaki Şekil 2'de gösterilmiştir.
İç içe UNet'in nasıl çalıştığına bir göz atalım.
Tipik difüzyon modellerine benzer şekilde, araştırmacılar MDM'yi, ince taneli girdi bilgilerini korumak için artık bağlantıların ve hesaplama bloklarının paralel olarak kullanıldığı bir UNet ağ yapısı kullanarak uyguladılar. Buradaki hesaplama blokları, çok katmanlı evrişimler ve kendi kendine dikkat katmanları içerir. NestedUNet ve standart UNet kodları aşağıdaki gibidir.
Araştırmacılar, aşağıdaki denklem (3)'te gösterildiği gibi, geleneksel gürültü giderme hedeflerini kullanarak MDM'yi birden fazla çözünürlükte eğittiler.
Bu eğitim yöntemi, başlangıçtan itibaren maliyetli, yüksek çözünürlüklü eğitimden kaçınır ve genel yakınsamayı hızlandırır. Sadece bu değil, aynı zamanda farklı nihai çözünürlüklere sahip numuneleri aynı anda tek bir partide eğiten karma çözünürlüklü eğitimi de dahil ettiler.
Deneyler ve Sonuçlar
MDM, giriş boyutlarını kademeli olarak sıkıştırabilen herhangi bir sorun için genel amaçlı bir teknolojidir. MDM'nin temel yaklaşımla karşılaştırılması aşağıdaki Şekil 4'te gösterilmektedir.