Meta multimodaliteyi yeniden tanımlıyor! Pekin Üniversitesi mezunları birlikte çalışıyor, 7 milyar parametreli Vincent grafik modeli Difüzyonu geride bırakıyor

Kaynak: Xinzhiyuan

Pekin Üniversitesi mezunları birlikte çalışıyor, Meta tarihteki ilk tekli multimodal modeli piyasaya sürüyor! 7B modeli Difüzyonu yendi ve mükemmel el çizimi sorunu mükemmel bir şekilde çözüldü.

Meta yine burada!

Az önce Meta, Vincent grafikleri ve görüntü anlama alanlarında mutlak atılımlar yapan ve türünün en iyisi olarak adlandırılabilecek Transformer tabanlı çok modlu bir model olan CM3leon'u piyasaya sürdü.

Ayrıca, çoklu modalitelerin tek bir modelde bu kombinasyonu, daha önce açıklanan AI sistemlerinde emsalsizdir.

Açıkçası, Meta tarafından yapılan bu araştırma, multimodal AI için yeni bir standart tanımlıyor; bu, AI sisteminin görüntüleri, videoları ve metinleri anlama, düzenleme ve oluşturma gibi görevlerde tamamen serbestçe geçiş yapabileceğini gösteriyor.

Bu arada, CM3leon'un lansmanı, resmi olarak ilk kez bir otoregresif modelin, temel ölçütlerde önde gelen üretken difüzyon modellerinin performansıyla eşleştiğini gösteriyor.

Kağıt adresi:

Daha önce Vincent grafik alanında en çok ilgi gören üç yıldızlı model Stable Diffusion, DALL-E ve Midjourney idi. Vinsen diyagramı tekniği temel olarak difüzyon modeline dayanır.

Ancak CM3leon'un devrim niteliğindeki önemi, tamamen farklı bir teknoloji kullanmasıdır - tokenizer tabanlı otoregresif bir model.

Sonuçlar, tokenizer tabanlı otoregresif modelin yalnızca difüzyon modeline dayalı yöntemden daha etkili olmadığını ve Vincent grafikleri alanında SOTA'yı başardığını, aynı zamanda önceki Transformer tabanlı yöntemden beş kat daha az eğitim hesaplaması gerektirdiğini göstermektedir. !

Hazır olun, harika efekt dalgası geliyor

Sadece ham performans göstergelerine bakmak hiçbir şeyi açıklayamaz.

CM3leon'un gerçekten parladığı nokta, daha karmaşık yönlendirme ve görüntü düzenleme görevlerini yerine getirmesidir.

Muhteşem sonuçlarla doğru bir şekilde oluşturulmuş görüntüler

Örneğin, "Sahra'da hasır şapka ve neon güneş gözlüğü takan küçük kaktüs" gibi ipuçlarından görüntüleri doğru şekilde işleyebilir.

Keyfi, resimleri istediğiniz gibi düzenleyin

CM3leon ayrıca, gökyüzünün rengini değiştirme veya belirli konumlara nesne ekleme gibi serbest biçimli metin talimatlarına dayalı olarak mevcut görüntüleri düzenleme konusunda benzersiz bir yeteneğe sahiptir.

Yukarıdaki işlevler, DALL-E 2 gibi modellerin elde edebileceği etkilerin çok ötesindedir.

Benzeri görülmemiş çok modlu tek model

CM3leon'un çok yönlü mimarisi, metin, resim ve kompozisyon görevleri arasında serbestçe ve sorunsuz geçiş yapmasına olanak tanır.

Vincent diyagramlarının özelliklerine ek olarak CM3leon, görüntüler için ek açıklamalar oluşturabilir, görüntü içeriğiyle ilgili soruları yanıtlayabilir ve hatta sınırlayıcı kutuların ve segmentasyon haritalarının metinsel açıklamalarından görüntüler oluşturabilir.

Modalitelerin tek bir modelde bu şekilde birleştirilmesi, daha önce açıklanan AI sistemlerinde emsalsizdir.

: Köpek ne tutuyor? Model cevap verdi: sopa.

: Verilen görüntüyü ayrıntılı olarak açıklar. Model cevap verir: Bu resimde bir köpek ağzında bir sopa tutuyor. Yerde çimen var. Görüntünün arka planında ağaçlar var.

Görüntü sınırlayıcı kutu segmentasyonunun, görüntüde bir havuzun ve aynanın nerede gerekli olduğunu gösteren metin açıklaması verildiğinde, CM3leon karşılık gelen görüntüyü tam olarak oluşturabilir.

Süper Yüksek Çözünürlük

CM3leon çıkışıyla ayrı bir süper çözünürlüklü platform entegre edilebilir, bu da çözünürlük ve ayrıntıda çarpıcı bir artış sağlar.

"Gölün ortasında küçük dairesel bir ada, göl çevresinde ormanlar, yüksek kontrast" girin——

Yapay zeka ressamı sorununu çözün

Yapay zekanın el çizememesine ilişkin uzun süredir devam eden sorun bile CM3leon tarafından kolayca çözüldü.

Otoregresif model ilk kez Difüzyonu yendi mi?

Son yıllarda popüler hale gelen Vincent diyagramları alanında, Midjourney, DALL-E 2 ve Stable Difüzyon, difüzyon teknolojisini kullanır. Difüzyon tekniği çarpıcı sonuçlar üretirken, hesaplama açısından yoğundur, bu da onu hesaplama açısından yoğun, çalıştırılması pahalı ve genellikle gerçek zamanlı uygulamalar için gereken hızdan yoksun kılar.

İlginç bir şekilde OpenAI, birkaç yıl önce Image GPT adlı bir model aracılığıyla Transformer'ın bir görüntü oluşturma olasılığını araştırmak istedi. Ama sonunda fikri Difüzyon lehine bıraktı.

CM3leon tamamen farklı bir yaklaşım benimsiyor. Transformer tabanlı bir model olarak, girdi verilerinin (metin veya resimler) alaka düzeyini ölçmek için bir dikkat mekanizmasından yararlanır.

Bu mimari fark, CM3leon'un daha yüksek eğitim hızı ve daha iyi paralelleştirme elde etmesini sağlayarak geleneksel difüzyon tabanlı yöntemlerden daha verimli olmasını sağlar.

Yalnızca tek bir TPU ile CM3leon, görüntü veri kümesi üzerinde verimli bir şekilde eğitilir ve MS-COCO veri kümesinde 4,88'lik bir FID puanı elde ederek Google'ın metinden görüntüye modeli Parti'yi geride bırakır.

Aynı zamanda CM3leon'un verimliliği benzer Transformer mimarisinin 5 katından fazladır.

CM3leon'un bu kadar başarılı olmasının nedeni, benzersiz mimarisine ve eğitim yöntemine bağlanabilir.

Güçlü performansının anahtarı, denetimli ince ayar (SFT) tekniğidir.

SFT daha önce ChatGPT gibi metin üreten modelleri iyi bir etki için eğitmek için kullanılıyordu, ancak Meta bunun görüntülere uygulandığında da yararlı olabileceğini savunuyor.

Aslında talimat ince ayarı, CM3Leon'un yalnızca görüntü oluşturmadaki performansını iyileştirmekle kalmadı, aynı zamanda görüntü açıklama yazmadaki performansını da iyileştirerek, "Gökyüzünün rengini değiştirin" gibi metin talimatlarını izleyerek görüntülerle ilgili soruları yanıtlamasını ve görüntülerin performansını iyileştirmesini sağladı. parlak mavi." ”) görüntüyü düzenlemek için.

CM3leon, yalnızca yerleşik metin tabanlı modellere benzer bir kod çözücü-dönüştürücü mimarisi kullanır, ancak metin ve görüntüleri işleme yeteneği ekler.

Eğitim süreci, çeşitli görüntü ve metin oluşturma görevlerinde talimat ince ayarının yanı sıra, alma artırmayı içerir.

Modlar arası denetimli ince ayar teknikleri uygulayarak Meta, CM3leon'un görüntü açıklama, görsel QA ve metin düzenleme performansını önemli ölçüde artırır.

CM3leon yalnızca 3 milyar metin belirteci üzerinde eğitilmiş olsa da, 100 milyara kadar belirteç üzerinde eğitilmiş diğer modellerin sonuçlarıyla eşleşir ve hatta onları aşar.

Metin dili modellerine benzer şekilde ayarlanan ilk çok modlu model olarak Meta, CM3leon'da büyük ölçekli bir geri alma ile zenginleştirilmiş ön eğitim aşamasını ve ikinci bir çok görevli denetimli ince ayar (SFT) aşamasını içerir.

CM3leon nasıl davranır?

CM3leon'un yetenekleriyle görüntü oluşturma araçları, giriş ipuçlarını daha iyi takip eden daha tutarlı görüntüler üretebilir.

Aşağıda, tümü tek bir model tarafından tamamlanan çeşitli görevlerde CM3leon'un yeteneklerinin bir gösterimi yer almaktadır:

metinden görüntüye oluşturma

Metin tabanlı görüntü düzenleme (örneğin, "gökyüzünün rengini parlak mavi olarak değiştirin") zordur çünkü modelin hem metin talimatlarını hem de görsel içeriği anlamasını gerektirir.

Özellikle karmaşık nesneler söz konusu olduğunda veya ipucu, çıktıda bulunması gereken birden çok kısıtlama içerdiğinde.

CM3leon, son derece kompozisyon yapısına sahip bilgi istemi metninden takip edilecek bir görüntü oluşturabilir.

(1) Sahra Çölü'nde hasır şapka ve neon güneş gözlüğü takan küçük kaktüs (2) Bir insan elinin yakın çekimi (3) Anime'deki rakun ana karakteri katana kılıcıyla destansı bir savaşa hazırlanıyor (4) Fantezi tarzında işlenmiş Dur işareti Üzerinde "1991" yazan

Metin tabanlı görüntü düzenleme

Bir görüntü ve bir metin istemi verildiğinde, CM3leon görüntüyü metindeki talimatlara göre düzenleyebilir.

CM3leon modelinin genelliği nedeniyle bu, yalnızca metin tabanlı görüntü düzenleme için ince ayarı yapılmış önceki modellerin (InstructPix2Pix gibi) aksine, diğer görevlerle aynı modelle gerçekleştirilir.

CM3leon modeli aynı zamanda kısa veya uzun açıklamalar oluşturabilir ve bir dizi farklı istem temelinde görüntülerle ilgili soruları yanıtlayabilir.

Bir kestane al.

  • ipucu:

Soru: Bu iki nesnenin ortak noktası nedir?

Bağlam: En iyi yanıtı seçin.

Seçenekler: (A) Parlak (B) Tuzlu

Cevap: Adım adım düşünelim:

  • CM3Leon çıkışı:

Her nesneyi düşünün. Cips tuzlu. Simit tuzlu. Yani cevap (B)'dir.

- ipucu:

Belirli bir görüntüdeki tüm nesneleri ayrıntılı olarak tanımlayın.

  • CM3Leon çıkışı:

Metal bir direğe bir sokak tabelası oturur. Logo, üzerinde beyaz metin bulunan mavidir. Direğin üzerinde kırmızı bir ışık var. Gökyüzü parlak mavi. Sokakta park etmiş arabalar var. Caddenin iki yanında ağaçlar var. Caddenin iki yanında binalar var.

Benzer şekilde, CM3leon aşağıdaki "resimli soruları ve cevapları" kolayca işleyebilir.

CM3leon hakkında daha fazla bilgi edinmek için Meta, resim altyazısı oluşturma ve görsel soru yanıtlama görevlerinde talimatla ince ayarlı modelleri ampirik olarak değerlendirir ve bunları önceki SOTA kıyaslamaları ile karşılaştırır.

Flamingo (100B) ve OpenFlamingo (40B) ile karşılaştırıldığında, CM3leon modelinin metin verileri önemli ölçüde daha azdır (yaklaşık 3 milyar jeton).

Ancak MS-COCO resim açıklaması ve VQA2 soru yanıtlama açısından CM3leon, sıfır örnek OpenFlamingo ile aynı performansı elde etti ve hatta VizWiz görevinde Flamingo'yu yaklaşık yüzde 10 puan geride bıraktı.

Yapı Yönlendirmeli Görüntü Düzenleme

Yapı güdümlü görüntü düzenleme, sağlanan metinsel talimatların yanı sıra yapısal veya yerleşim bilgilerinin anlaşılmasını ve yorumlanmasını amaçlar.

Bu, CM3leon modellerinin verilen yapısal veya yerleşim talimatlarına bağlı kalırken görsel olarak tutarlı ve bağlamsal olarak uygun görüntü derlemeleri oluşturmasını sağlar.

Yalnızca segmentasyon içeren (metin kategorisi olmayan) bir görüntüde, bir görüntü oluşturun. Buradaki giriş, segmentasyonun çıkarıldığı görüntüyü temsil eder.

Süper Çözünürlük

Buna ek olarak, orijinal model çıktısından daha yüksek çözünürlüklü görüntüler oluşturmak için ayrı olarak eğitilmiş bir süper çözünürlüklü aşamayı kullanan görüntü oluşturma alanında yaygın bir hile vardır.

Bu tür metinden görüntüye oluşturma görevi için CM3leon da çok iyi performans gösterir.

(1) Arka planda dağların olduğu, yolda dinlenen bir fincan dumanı tüten kahve

(2) Gün batımında, güzel ve görkemli otoyol

(3) Gölün ortasında ormanlarla çevrili dairesel bir ada

Ve bazı "fantezi" tarzı nesil.

(1) Su altında yüzen kaplumbağa (2) Su altında yüzen fil (2) Koyun sürüsü

CM3Leon nasıl kurulur

Yapı

Mimari açısından CM3Leon, yetişkin metin modeline benzer, yalnızca kod çözücülü bir Transformer kullanır.

Ancak fark, CM3Leon'un metin ve görüntüler girebilmesi ve oluşturabilmesidir.

tren

"Retri-Augmented Multimodal Language Modeling" makalesinde önerilen eğitim alma geliştirme teknolojisini benimseyen Meta, CM3Leon modelinin verimliliğini ve kontrol edilebilirliğini büyük ölçüde geliştirir.

Aynı zamanda Meta, çeşitli görüntü ve metin oluşturma görevlerinde CM3Leon modeline ince ayar yaptı.

Sol: çeşitli görevler için ortak girdiler; sağ: karşılık gelen model çıktıları. Eğitim sırasında Meta, model girdilerini ve çıktılarını birleştirir ve eğitim öncesi aşamadaki aynı hedefle eğitir.

AI endüstrisi büyümeye devam ettikçe, CM3Leon gibi üretken modeller daha karmaşık hale geliyor.

Bu modeller, milyonlarca örnek görüntü üzerinde eğitim alarak görüntü ve metin arasındaki ilişkiyi öğrenir, ancak eğitim verilerinde bulunan önyargıları da yansıtabilir.

Bu nedenle Meta, CM3Leon'u eğitmek için lisanslı veri setini kullanır.

Sonuçlar aynı zamanda verilerin dağılımı önceki modellerden oldukça farklı olmasına rağmen CM3Leon'un hala güçlü performans elde ettiğini göstermektedir.

Bu bağlamda Meta, herkesin ortak çabasıyla daha doğru, adil ve adil bir modelin oluşturulabileceğini umuyor.

Çok modlu dil modellerinin yolunu açmak

Genel olarak Meta, CM3Leon'un çeşitli görevlerdeki mükemmel performansının, daha gerçekçi görüntü oluşturma ve anlama yolunda önemli bir adım olduğuna inanıyor.

Ve böyle bir model, nihai olarak yaratıcılığın geliştirilmesine ve meta veri deposunda daha iyi uygulamalar elde edilmesine yardımcı olabilir.

yazar hakkında

Lili Yu, Bowen Shi ve Ramakanth Pasunuru makalenin ortak yazarlarıdır.

Bunların arasında Lili Yu, Pekin Üniversitesi Fizik Bölümü'nden lisans derecesi ve MIT'den elektrik mühendisliği ve bilgisayar bilimleri alanında doktora derecesi aldı.

Referanslar:

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)