OpenAI'nin en güçlü edebi grafik modelinin yorumlanması—DALL· E 3

Orijinal kaynak: AIGC Açık Topluluğu

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Midjourney ve Stable Difusion, OpenAI'nin yeni iş fırsatlarını görmesine ve DALL· E 3'ün önemli nedenlerinden biri.

Geçen hafta OpenAI, ChatGPT Plus ve Enterprise Edition kullanıcıları arasında Vensheng grafik modeli DALL· E3 ve aynı zamanda nadir bir araştırma makalesi sürümü.

DALL· E 3 ve DALL'ın önceki iki nesli· E、DALL· E 2 ile karşılaştırıldığında, özellikle ChatGPT ile birlikte anlamsal anlama, görüntü kalitesi, görüntü değiştirme, görüntü yorumlama, uzun metin girişi vb. alanlarda niteliksel bir sıçrama gerçekleştirerek OpenAI'nin yeni bir koz uygulaması haline geldi.

Bildiri Adresi:

Aşağıdaki "AIGC Açık Topluluğu" DALL· E3 belgesi, her modülün ana teknik ilkelerini ve işlevlerini açıklar.

Araştırmacılar, metin tarafından oluşturulan görüntü modellerinin, eğitim veri kümesindeki görüntü açıklamalarının kalitesizliği nedeniyle, ayrıntılı görüntü açıklamalarını takip etmede, istemdeki kelimeleri görmezden gelmede veya anlamlarını karıştırmada genellikle çeşitli zorluklar yaşadığını buldular.

Bu hipotezi test etmek için, araştırmacılar önce tanımlayıcı görüntüler için altyazı üreten bir model geliştirdiler. Model, görüntüler için ayrıntılı ve doğru açıklamalar oluşturmak üzere dikkatle eğitilmiştir.

Araştırmacılar, eğitim veri kümesinin açıklamalarını yeniden oluşturmak için bu modeli kullandıktan sonra, orijinal açıklama ve yeni oluşturulan açıklama üzerinde eğitilen birden çok metin tarafından oluşturulan görüntü modelini karşılaştırdı.

Sonuçlar, yeni açıklama üzerinde eğitilen modelin, istemleri izlemede özgün açıklama modelinden önemli ölçüde daha iyi olduğunu göstermektedir. Bu yöntem daha sonra büyük ölçekli veri kümeleri – DALL-E 3 üzerinde eğitildi.

DALL-E 3'ün teknik mimarisi açısından, esas olarak iki modüle ayrılmıştır: görüntü açıklaması oluşturma ve görüntü oluşturma.

Görüntü Açıklaması Oluşturma Modülü

Bu modül, her görüntü için ayrıntılı metin açıklamaları oluşturmak için bir CLIP (Kontrastlı Dil-Görüntü Ön Eğitimi) görüntü kodlayıcı ve GPT Dil Modeli (GPT-4) kullanır.

Araştırmacılar, küçük ölçekli konu açıklama veri kümeleri, büyük ölçekli ayrıntılı açıklama veri kümeleri oluşturarak ve oluşturma kuralları belirleyerek, modül tarafından çıkarılan görüntü açıklama bilgilerinin miktarını büyük ölçüde artırır ve sonraki görüntü üretimi için güçlü destek sağlar. Her modülün ana işlevleri aşağıdaki gibidir:

1) CLIP Görüntü Kodlayıcı

CLIP, bir görüntüyü, görüntünün anlamsal bilgilerini içeren sabit uzunlukta bir vektöre kodlayan, eğitilmiş bir görüntü metni eşleştirme modelidir. DALL-E 3, koşullu metin oluşturma girişinin bir parçası olarak eğitim görüntüsünü bir görüntü özelliği vektörüne kodlamak için CLIP'in görüntü kodlayıcısını kullanır.

2) GPT Dil Modeli

DALL-E 3, GPT mimarisine dayalı bir dil modeli oluşturur ve metin dizilerini rastgele örneklemenin ortak olasılığını en üst düzeye çıkararak tutarlı metin açıklamaları oluşturmayı öğrenir.

3) Koşullu Metin Oluşturma

Yukarıdaki ikisini birleştirerek, görüntü özelliği vektörü, önceki kelime dizisiyle birlikte GPT dil modeline girilir ve görüntünün koşullu metin üretimi gerçekleştirilebilir. Eğitim yoluyla modül, her görüntü için ayrıntılı Deive açıklamaları oluşturmayı öğrenir.

4) Eğitimi optimize edin

DALL-E 3'ün altyapısı tamamlanmış olsa da, doğrudan eğitimin sonuçları ayrıntılı açıklamalar oluşturmak için yeterince ideal değildir. Bu nedenle, araştırmacılar aşağıdaki teknik optimizasyonları yaptılar:

* Küçük ölçekli veri kümeleri oluşturun, özellikle konuların ayrıntılı açıklamalarını toplayın, dil modellerinde ince ayar yapın ve görüntü konularını tanımlama eğiliminde olun.

  • Büyük ölçekli ayrıntılı açıklama veri kümeleri oluşturun, konu, arka plan, renk, metin vb. gibi çeşitli yönleri tanımlayın ve ince ayar yaparak açıklama kalitesini daha da iyileştirin.
  • Dil modellerinin insan tarzından sapmasını önlemek için oluşturulan açıklamaların uzunluğu ve stili gibi kurallar belirleyin.

Görüntü Oluşturma Modülü

Bu modül, öğrenme zorluğunu azaltmak için yüksek çözünürlüklü görüntüleri düşük boyutlu vektörlere sıkıştırmak için ilk olarak VAE'yi kullanır. Metin daha sonra T5 Transformatörü kullanılarak vektörlere kodlanır ve görüntü oluşturma yönünü yönlendirmek için GroupNorm katmanı aracılığıyla difüzyon modeline enjekte edilir.

Araştırmacılar, Difüzyon modelinin eklenmesinin görüntü detay üretiminin etkisini önemli ölçüde artırdığına inanıyor. Spesifik süreç aşağıdaki gibidir:

1) Görüntü sıkıştırma

Yüksek çözünürlüklü görüntüler, görüntü oluşturma zorluğunu azaltmak için önce VAE modeli tarafından düşük boyutlu vektörlere sıkıştırılır. DALL-E 3, 8x altörnekleme kullanır ve 256 piksellik görüntüler 32x32 boyutunda bir gizli vektöre sıkıştırılır.

2) Metin Kodlayıcı

Metin istemlerini görüntü oluşturma modellerine enjekte etmek üzere vektörlere kodlamak için T5 Transformer gibi ağları kullanın.

3)Gizli Difüzyon

Bu, görüntü oluşturma problemini gürültü vektörünün birden fazla küçük ölçekli bozulmasına ayrıştıran ve yavaş yavaş hedef görüntüye yaklaşan görüntü oluşturmanın temel tekniğidir. Anahtar, uygun ileri ve geri süreçleri tasarlamaktır.

  1. Metin Enjeksiyonu**

Kodlanmış metin vektörü, her yineleme turu için görüntü oluşturma yönünü yönlendirmek üzere GroupNorm katmanı aracılığıyla Gizli Difüzyon modeline enjekte edilir.

5) Eğitimi optimize edin

Araştırmacılar, sıkıştırılmış görüntü gizli alanı üzerinde ek bir Difüzyon modelinin eğitilmesinin, ayrıntı oluşturma kalitesini daha da artırabileceğini buldular. DALL-E 3'ün önceki iki nesle göre daha kaliteli görüntüler üretmesinin nedenlerinden biri de budur.

CLIP Değerlendirme Verileri

Araştırmacılar ilk olarak DALL-E 3 tarafından oluşturulan görüntü ile orijinal açıklama metni, yani CLIP puanı arasındaki benzerliği hesaplamak için CLIP modelini kullandılar. MSCOCO veri kümesinden rastgele 4096 görüntü açıklamasını istem metni olarak seçtiler, DALL-E 2, DALL-E 3 ve Stable Diffusion XL'den karşılık gelen görüntüleri oluşturmalarını istediler ve ardından üçünün ortalama CLIP puanlarını hesapladılar.

Sonuçlar, DALL-E 3'ün CLIP puanının 32.0'a ulaştığını ve DALL-E 2'nin 31.4 ve Stable Diffusion XL'nin 30.5'inden daha iyi performans gösterdiğini gösterdi.

Bu, DALL-E 3 tarafından oluşturulan görüntünün orijinal açıklama metnine daha iyi uyduğunu ve metnin görüntü oluşturmayı daha iyi yönlendirdiğini gösterir.

Drawbench değerlendirme verileri

Modellerin performansı Drawbench veri setinde karşılaştırıldı. Veri kümesi, modelin istemleri anlamasını test eden birçok kırılgan metin istemi içerir.

Araştırmacılar, oluşturulan görüntülerin doğruluğunu otomatik olarak değerlendirmek için görsel bir dil modeli olan GPT-V'yi kullandılar.

Kısa metin istemleri alt testinde, DALL-E 3 tarafından doğru şekilde oluşturulan görüntülerin yüzdesi %70,4'e ulaşarak DALL-E 2'nin %49'unu ve Stable Diffusion XL'nin %46,9'unu önemli ölçüde aştı.

Uzun metin istemlerinde DALL-E 3 de %81 doğru sonuç alarak diğer modellerden daha iyi performans göstermeye devam etti.

T2I-CompBench Değerlendirmesi

T2I-CompBench'teki korelasyon alt testi aracılığıyla, modelin kombinasyon sınıfı istemlerini işleme yeteneği araştırılmıştır. Renk bağlama, şekil bağlama ve doku bağlama ile ilgili üç testte DALL-E 3, doğru bağlama oranında modeller arasında ilk sırada yer aldı ve kombinasyon ipuçlarını anlama yeteneğini tam olarak gösterdi.

Manuel Değerlendirme

Araştırmacılar ayrıca insanları, üretilen örnekleri takip eden ipuçları, üslup tutarlılığı vb. açısından değerlendirmeye davet etti. 170 ipucu üzerinde yapılan bir değerlendirmede DALL-E 3, Midjourney ve Stable Diffusion XL'den önemli ölçüde daha iyi performans gösterdi.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)