Görüntü ve video oluşturmada, dil modeli ilk kez difüzyon modelini yendi ve tokenizer anahtardır

Dil modelleri görsel üretim açısından neden difüzyon modellerinin gerisinde kalıyor? Google, CMU'nun araştırması, tokenizer'ın anahtar olduğunu gösteriyor.

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Büyük dil modelleri (LLM veya LM) dil üretmeye başladı, ancak zamanla birden fazla modalitede içerik üretebildiler ve ses, konuşma, kod oluşturma, tıbbi uygulamalar, robotik ve daha pek çok alanda baskın hale geldiler.

Tabii ki, LM ayrıca resim ve videolar da oluşturabilir. Bu işlem sırasında, görüntü pikselleri görsel belirteçler tarafından bir dizi ayrı belirteçte eşlenir. Bu belirteçler daha sonra LM transformatörüne beslenir ve tıpkı bir kelime dağarcığı gibi üretken modelleme için kullanılır. LM, görsel üretimde önemli ilerlemeler kaydetmiş olsa da, LM hala difüzyon modellerinden daha kötü performans gösteriyor. Örneğin, görüntü üretimi için altın ölçüt olan ImageNet veri kümesinde değerlendirildiğinde, en iyi dil modeli difüzyon modelinden %48'e kadar daha kötü performans gösterdi (256ˆ256 çözünürlükte görüntüler oluştururken FID 3.41'e karşı 1.79).

Dil modelleri görsel üretim açısından neden difüzyon modellerinin gerisinde kalıyor? Google, CMU'dan araştırmacılar, ana nedenin görsel dünyayı etkili bir şekilde modellemek için doğal dil sistemimize benzer iyi bir görsel temsilin olmaması olduğuna inanıyor. Bu hipotezi doğrulamak için bir çalışma yaptılar.

Kağıt Bağlantısı:

Bu çalışma, iyi bir görsel belirteç oluşturucu ile maskeleme dili modellerinin, aynı eğitim verileri, karşılaştırılabilir model boyutları ve eğitim bütçesi için görüntü ve video kıyaslamalarının üretken doğruluğu ve verimliliği açısından SOTA difüzyon modellerinden daha iyi performans gösterdiğini göstermektedir. Bu, bir dil modelinin ikonik ImageNet karşılaştırmasında bir difüzyon modelini yendiğinin ilk kanıtıdır.

Araştırmacıların amacının dil modelinin diğer modellerden üstün olup olmadığını iddia etmek değil, LLM görsel tokenizasyon yöntemlerinin araştırılmasını teşvik etmek olduğu vurgulanmalıdır. LLM ile difüzyon modelleri gibi diğer modeller arasındaki temel fark, LLM'nin ayrı bir gizli format, yani tokenizer'ların görselleştirilmesinden elde edilen belirteçler kullanmasıdır. Bu çalışma, aşağıdaki avantajları nedeniyle bu ayrık görsel belirteçlerin değerinin göz ardı edilmemesi gerektiğini göstermektedir:

  1. LLM ile uyumluluk. Belirteç gösteriminin ana avantajı, dil belirteci ile aynı formu paylaşması ve daha hızlı eğitim ve çıkarım, model altyapısındaki ilerlemeler, modelleri ölçeklendirme yolları ve GPU/TPU optimizasyonu gibi yenilikler dahil olmak üzere topluluğun LLM'yi geliştirmek için yıllar içinde yaptığı optimizasyonlardan doğrudan yararlanmasına olanak sağlamasıdır. Vizyonu ve dili aynı belirteç alanı üzerinden birleştirmek, görsel çevremizde anlaşılabilen, üretilebilen ve gerekçelendirilebilen gerçekten çok modlu bir LLM'nin temelini oluşturabilir.

  2. Sıkıştırma gösterimi. Ayrık belirteçler, video sıkıştırmaya yeni bir bakış açısı sağlayabilir. Görsel belirteçler, İnternet üzerinden iletim sırasında verilerin kapladığı disk depolama alanını ve bant genişliğini azaltmak için yeni bir video sıkıştırma formatı olarak kullanılabilir. Sıkıştırılmış RGB piksellerinin aksine, bu belirteçler geleneksel dekompresyon ve potansiyel kodlama adımlarını atlayarak doğrudan üretken modele beslenebilir. Bu, özellikle uç bilgi işlem senaryolarında faydalı olan video uygulamaları oluşturma işleminin işlenmesini hızlandırabilir.

  3. Görsel anlama avantajları. Önceki çalışmalar, BEiT ve BEVT'de tartışıldığı gibi, ayrık belirteçlerin kendi kendini denetleyen temsil öğreniminde eğitim öncesi hedefler olarak değerli olduğunu göstermiştir. Buna ek olarak, çalışma, belirteçlerin model girdileri olarak kullanılmasının sağlamlığı ve genellemeyi geliştirdiğini buldu.

Bu yazıda araştırmacılar, videoları (ve görüntüleri) kompakt ayrık belirteçlere eşlemeyi amaçlayan MAGVIT-v2 adlı bir video belirteç önermektedir.

Model, VQ-VAE çerçevesi içindeki SOTA video tokenizer – MAGVIT'e dayanmaktadır. Buna dayanarak, araştırmacılar iki yeni teknoloji önermektedir: 1) dil modeli oluşturma kalitesini artırmak için çok sayıda kelime öğrenmeyi mümkün kılan yeni bir arama gerektirmeyen niceleme yöntemi; 2) Kapsamlı ampirik analizler yoluyla, MAGVIT'te yalnızca yapı kalitesini iyileştirmekle kalmayıp aynı zamanda görüntülerin ve videoların ortak bir kelime dağarcığı kullanılarak tokenleştirilmesine izin veren değişiklikleri belirlediler.

Deneysel sonuçlar, yeni modelin üç temel alanda önceki en iyi performans gösteren video tokenizer MAGVIT'ten daha iyi performans gösterdiğini gösteriyor. İlk olarak, yeni model MAGVIT'in yapı kalitesini önemli ölçüde iyileştirerek SOTA'yı ortak görüntü ve video karşılaştırmalarında yeniliyor. İkinci olarak, kullanıcı çalışmaları, sıkıştırma kalitesinin MAGVIT ve mevcut video sıkıştırma standardı HEVC'yi aştığını göstermiştir. Ayrıca, yeni nesil video codec bileşeni VVC ile karşılaştırılabilir. Son olarak, araştırmacılar yeni tokenlerinin MAGVIT'e kıyasla iki ayar ve üç veri seti ile video anlama görevinde daha güçlü performans gösterdiğini gösterdi.

Yönteme Giriş

Bu makale, görsel sahnelerdeki zaman-mekanı dinamik olarak dil modellerine uygun kompakt ayrık belirteçlere eşlemeyi amaçlayan yeni bir video belirteç oluşturucuyu tanıtmaktadır. Ek olarak, yöntem MAGVIT üzerine kuruludur.

Çalışma daha sonra iki yeni tasarımı vurguladı: Lookup-Free Quantization (LFQ) ve tokenizer modelindeki geliştirmeler.

Arama Nicelemesi Yok

Son zamanlarda, VQ-VAE modeli büyük ilerleme kaydetmiştir, ancak bu yöntemin bir dezavantajı, yeniden yapılanma kalitesinin iyileştirilmesi ile sonraki nesil kalitesi arasındaki ilişkinin net olmamasıdır. Pek çok insan yanlışlıkla yeniden yapılanmayı iyileştirmenin dil modellerinin oluşturulmasını iyileştirmeye eşdeğer olduğunu düşünüyor, örneğin, kelime dağarcığını genişletmek yeniden yapılanmanın kalitesini artırabilir. Bununla birlikte, bu gelişme yalnızca küçük kelime dağarcığının oluşturulması için geçerlidir ve bu, kelime dağarcığı çok büyük olduğunda dil modelinin performansına zarar verebilir.

Bu makale, VQ-VAE kod kitabı gömme boyutunu, kod kitabı olan 0'a düşürür

bir tamsayı kümesiyle değiştirilir

bunun içine

VQ-VAE modelinden farklı olarak, bu yeni tasarım gömülü aramalara olan ihtiyacı tamamen ortadan kaldırır, bu nedenle LFQ adı verilir. Bu makale, LFQ'nun kelime dağarcığını artırarak dil modeli oluşturma kalitesini artırabileceğini bulmaktadır. Şekil 1'deki mavi eğri ile gösterildiği gibi, kelime dağarcığı arttıkça hem yeniden yapılanma hem de üretim gelişir - mevcut VQ-VAE yaklaşımlarında gözlenmeyen bir özellik.

Şimdiye kadar birçok LFQ yöntemi mevcuttur, ancak bu makalede basit bir varyant ele alınmaktadır. Spesifik olarak, LFQ'nun gizli uzayı, tek boyutlu değişkenlerin Kartezyen çarpımlarına ayrıştırılır, yani

。 Bir özellik vektörü verildiğini varsayalım

, aşağıdakilerden elde edilen Q (z)'nin her bir boyutunu nicel olarak temsil eder:

LFQ için, q (z) için belirteç indeksi:

Ek olarak, bu makale eğitim sırasında entropi cezasını da ekler:

Görsel Tokenizer Modeli İyileştirmeleri

Federasyon görüntüleri - video tokenizasyonu. Birleşik bir görüntü-video tokenizer oluşturmak için yeni bir tasarıma ihtiyaç vardır. Bu makale, 3D CNN'lerin uzamsal transformatörlerden daha iyi performans gösterdiğini bulmaktadır.

Bu makale, C-ViViT'yi MAGVİT ile birleştiren Şekil 2b; Şekil 2c, normal bir 3D CNN yerine zamansal nedensel 3D evrişim kullanır.

Tablo 5a, Şekil 2'deki tasarımı ampirik olarak karşılaştırır ve nedensel 3D CNN'lerin en iyi performansı gösterdiğini bulur.

Nedensel 3D CNN katmanını kullanmanın yanı sıra, MAGVIT performansını iyileştirmek için kodlayıcı alt örnekleyiciyi ortalama havuzlamadan adım evrişimine değiştirmek gibi başka mimari değişiklikler de yapılmıştır; Başka bir örnek, kod çözücüdeki her çözünürlüğün artık bloğundan önce bir uyarlanabilir grup normalleştirme katmanı eklemektir.

Deneysel Sonuçlar

Deneyler, bu belgede önerilen tokenizer'ın performansını üç bölümden doğrular: video ve görüntü oluşturma, video sıkıştırma ve hareket tanıma. Şekil 3, Tokenizer'ın sonuçlarını önceki çalışmalarla görsel olarak karşılaştırır.

Video oluşturma. Tablo 1, bu modelin her iki kıyaslamada da önceki tüm teknikleri geride bıraktığını ve iyi bir görsel belirteçleyicinin LM'lerin yüksek kaliteli videolar üretmesini sağlamada önemli bir rol oynadığını göstermektedir.

Şekil 4, modelin nitel bir örneğini göstermektedir.

Görüntü üretimi. Bu yazıda, MAGVIT-v2'nin görüntü oluşturma sonuçları standart ImageNet sınıf koşulu ayarları altında değerlendirilmiştir. Sonuçlar, önerilen modelin örnekleme kalitesi (ID ve IS) ve çıkarım süresi verimliliği (örnekleme adımı) açısından en iyi performans gösteren difüzyon modelinden daha iyi performans gösterdiğini göstermektedir.

Şekil 5'te görselleştirme gösterilmektedir.

Video sıkıştırma. Sonuçlar Tablo 3'te gösterilmiştir ve model tüm ölçümlerde MAGVIT'ten daha iyi performans gösterir ve LPIPS'deki tüm yöntemlerden daha iyi performans gösterir.

Video anlama. Tablo 4'te gösterildiği gibi, MAGVIT-v2 bu değerlendirmelerde önceki en iyi MAGVIT'ten daha iyi performans göstermektedir.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)