Google'ın görsel dil modeli PaLI-3, yalnızca 5B parametreleriyle daha küçük, daha hızlı ve daha güçlü olarak çıktı

Multimodal (görsel dil) alanında büyük modeller, performans kazanmak için parametrelerle rekabet ederken, daha küçük parametrelerin peşinden gitmek, daha hızlı ve daha güçlü performans başka bir araştırma yoludur.

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Büyük modeller çağında, görsel dil modellerinin (VLM'ler) parametreleri onlarca, hatta yüz milyarlarca genişledi ve performansın artmaya devam etmesini sağladı. Aynı zamanda, daha küçük modeller hala önemlidir, eğitilmeleri ve bakımı daha kolaydır, daha çevre dostudur ve model tasarımı için daha hızlı araştırma döngüleri sağlar.

Bu alanda Google Research, geçtiğimiz yıl PaLI (Pathways Language and Image) adlı bir model başlattı. Çok modlu büyük bir model olarak PaLI'nin temel yapılarından biri, dil ve görsel modelleme için büyük tek modlu omurgaların yeniden kullanılması, dil açısından 13B parametreli mT5-XXL'in ve görme açısından 2B parametreli ViT-G'nin ve 4B parametreli ViT-e'nin yeniden kullanılmasıdır. O zamanlar PaLI, çoğu eski ve yeni modelden daha iyi performans elde etti.

Google o zamandan beri daha küçük ölçekli modellemeye odaklanmaya devam etti ve yakın zamanda PaLI serisinin üçüncü nesil modeli olan PaLI-3'ü önerdi. Yalnızca 5B parametrelerine sahip önceden eğitilmiş bir temel modelle, eğitim yöntemini optimize ettiler ve birden fazla VLM kıyaslamasında rekabetçi ve yeni SOTA sonuçları elde ettiler.

Yöntem, görüntü kodlayıcıların web ölçeğinde görüntü metni verileri üzerinde karşılaştırmalı ön eğitimi, PaLI multimodal eğitimi için geliştirilmiş hibrit veri kümesi ve daha yüksek çözünürlüklü eğitim olmak üzere üç ana bölümden oluşur.

*Yazarlar Google Research, Google DeepMind ve Google Cloud'dandır. *

Bildiri Adresi:

Aşağıdaki şekil, önceden eğitilmiş 2B SigLIP vizyon modelini karşılaştırarak görüntülerin ayrı ayrı görsel bir belirtece kodlandığı 5B PaLI-3 modeline genel bir bakışı göstermektedir. Daha sonra, sorgu ile birlikte, bu görsel belirteçler beklenen cevabı üreten 3B kodlayıcı-kod çözücü yapısının UL2 Transformatörüne iletilir. Bu kurulumda, önceden eğitilmiş tek bir sınıflandırma modelinin önceki PaLI modeliyle karşılaştırıldığında, önceden eğitilmiş model önemli ölçüde daha kullanışlı bir belirteç sağlar.

Ne kadar etkili? PaLI-3, RefCOCO veri kümesinde görsel olarak konumlandırılmış 8 metin anlama görevi ve referans ifadesi segmentasyon görevi dahil olmak üzere, görsel olarak konumlandırılmış metin anlama ve hedef konumlandırma gerektiren görevlerde yeni SOTA uygular. PaLI-3 ayrıca bir dizi gizli görme görevinde de üstündür.

Buna ek olarak, araştırmacılar sınıflandırma önceden eğitilmiş ViT temel modeliyle karşılaştırmak için ablasyon deneyleri yaptılar ve önceden eğitilmiş görsel kodlayıcıların gürültülü web ölçekli görüntü metin verileri üzerinde fizibilitesini doğruladılar ve böylece sınıflandırılmış veriler üzerinde eğitim için tercih edilen bir alternatif haline geldiler.

Araştırmacılar, 5B PaLI-3 modeline ek olarak, 2B'ye kadar uzatılmış parametrelerle bir SOTA çok dilli kontrastlı görme modeli oluşturmak için yakın zamanda önerilen SigLIP yöntemini de kullandılar.

Model Tanıtımı

Mimarlık

Daha yüksek bir düzeyde, PaLI-3'ün mimarisi Chen ve ark. (2023b; a): ViT modeli, görüntüyü bir belirteç olarak kodlar ve sorular, istemler ve talimatlar gibi metin girişleriyle birlikte kodlayıcı-kod çözücü yapısının transformatörüne iletilir ve bir metin çıktısı elde edilir.

Görsel bileşenle başlayalım. Araştırmacılar, PaLI-3'ün görsel omurgasını önceden eğitilmiş bir ViT-G/14 modelinden başlatmak için SigLIP eğitim yöntemini kullandılar (parametre yaklaşık 2B'dir). Kısacası, görüntü gömme için ViT-G/14 modelini ve sırasıyla görüntüleri ve metni gömmek için metin gömme transformatör modelini eğittiler, böylece görüntü ve metin gömme nokta çarpımını kullanarak sigmoid çapraz entropiye sahip ikili sınıflandırıcılar, ilgili görüntülerin ve metnin birbirine karşılık gelip gelmediğini doğru bir şekilde sınıflandırabilir.

BU, CLIP AND ALIGN'A BENZER, ANCAK DAHA VERIMLI, ÖLÇEKLENEBILIR VE SAĞLAMDIR. Aynı zamanda, bu yöntem ViT görüntü gömme bileşenini önceden eğitmektir, böylece ViT PaLI'ye eklendiğinde, metin gömme transformatörü atılır.

Tam PaLI modeline bakalım. ViT görüntü kodlayıcının çıktısı, havuzlamadan önce görsel bir belirteç oluşturur ve doğrusal olarak eşlenir ve gömülü giriş metni belirtecine eklenir. Bu belirteçler daha sonra metin çıktısı oluşturmak için önceden eğitilmiş bir 3B UL2 kodlayıcı-kod çözücü modeline geçirilir. Modelin metin girişi genellikle görevin türünü açıklayan ve görev için gerekli metin girişini kodlayan istemler içerir.

Antrenman

Eğitim süreci birden fazla aşamadan oluşmaktadır.

Aşama 0: Tek modlu ön eğitim. SigLIP eğitim protokolüne göre, görüntü kodlayıcı 224×224 eğitim çözünürlüğüne sahiptir; Metin kodlayıcı-kod çözücü, Tay ve diğerleri tarafından açıklanan hibrit gürültü azaltma prosedürü izlenerek eğitilmiş bir 3B UL2 modelidir.

Aşama 1: Multimodal eğitim. Birleşik PaLI modeli, bir görüntü kodlayıcıyı bir metin kodlayıcı-kod çözücü ile birleştirerek çok modlu görevler ve veriler üzerinde eğitilir ve bu noktada görüntü kodlayıcı 224×224 çözünürlükte donmuş halde kalır. Metin kalitesinin sezgisel olarak filtrelenmesi ve SplitCap eğitim hedefi kullanılarak, ana karıştırma bileşenleri yine WebLI veri kümesinden türetilir.

Aşama 2: Lüks. Yüksek çözünürlüklü giriş, hem görüntüdeki daha fazla ayrıntı algılanabildiği hem de dizi uzunluğu artırılarak model iyileştirildiği için performansı artırmanın yaygın olarak kabul edilen bir yoludur. Bu makale, kontrol noktalarını 812×812 ve 1064×1064 çözünürlüklerinde tutarak görüntü kodlayıcıyı çözerek PaLI-3'ün çözünürlüğünü artırır.

Görev geçişi. Son olarak, her bir görev (kıyaslama) için bu makale, donmuş bir ViT görüntü kodlayıcı kullanarak görevin eğitim verileri üzerinde PaLI-3 modeline ince ayar yapar; Çoğu görev için, bu makale 812×812 çözünürlük denetim noktasında ince ayar yapar, ancak her iki belge anlama görevi için de bu makale çözünürlüğü 1064×1064'e yükseltir.

Deneyler ve Sonuçlar

Deney ilk olarak PaLI çerçevesi altında farklı ViT modellerinin sonuçlarını karşılaştırdı ve araştırmacılar iki ViT modelini değerlendirdi: Classif ve SigLIP.

Tablo 1'de gösterilen sonuçlar, SigLIP modelinin küçük örneklem doğrusal sınıflandırmasında geride kalırken, PaLI-3 kullanarak, SigLIP modelinin altyazı ve soru yanıtlama gibi daha basit görevlerde mütevazı kazanımlar sağladığını ve daha karmaşık senaryolarda, yani metin ve uzamsal anlama görevlerinde büyük kazanımlar sağladığını göstermektedir.

Ayrıca araştırmacılar PaLI-3'ü TextCaps, TextVQA, STVQA, OCRVQA, InfographicVQA, DocVQA, ChartQA, Scree2Words, WidgetCap veri setleri üzerinde değerlendirmişlerdir. Sonuçlar, harici bir OCR sistemi kullanıldığında PaLI-3'ün SOTA yönteminden sadece 0,7 puan daha düşük olduğu Tablo 2'de gösterilmektedir. Bununla birlikte, böyle bir harici sistemin yokluğunda, PaLI-3, tüm SOTA yöntemlerinin kombinasyonundan 4.4 puan daha yüksektir. TextCaps, TextVQA, InfographicVQA ve DocVQA için PaLI-3'ün 8 puan veya daha fazla avantajı vardır.

Referans ifade segmentasyonu

Araştırmacılar, dil benzeri çıktılara sahip segmentasyon maskelerini tahmin etmek için PaLI-3'ü genişletti. Bunu yapmak için Ning ve ark. (2023) Vektörleştirilmiş Varyasyonel Otomatik Kodlayıcı (VQ-VAE). VQ-VAE, 128 maske jetonunu öğrenmek için eğitilmiştir ve kodlayıcısı, kod çözücünün geri dönüştürebileceği 64 × 64 piksellik bir segmentasyon maskesini 16 maske jetonu olarak işaretleyebilir.

Araştırmacılar, PaLI-3'ü tek bir segmentasyon maskesini tahmin etmek için eğittiler, önce 4 koordinatı metin olarak çıkardılar ve bunları sınırlayıcı kutular olarak temsil ettiler. Bunu, sınırlayıcı kutu içindeki maskeleri temsil eden 16 maske belirteci izler.

Tablo 1, bu tür hedefleme görevleri için kontrast ön eğitiminin sınıflandırma ön eğitiminden daha etkili olduğunu göstermektedir. Aşağıdaki Tablo 3, PaLI-3 modelinin tamamının, referans ifade segmentasyonu açısından önceki teknikten biraz daha üstün olduğunu göstermektedir.

Görüntü Anlama

Daha sonra, araştırmacılar PaLI-3'ü genel bir görsel dil anlama görevi üzerinde değerlendirdiler. Önceki çalışmalarında olduğu gibi, harici bir OCR modülü kullanmadılar çünkü bu kıyaslamalar nadiren görüntülerdeki metni içeriyordu.

Sonuçlar, PaLI-3'ün son SOTA modellerine kıyasla boyut olarak çok daha küçük olduğunu, ancak bu kıyaslamalarda çok güçlü performans gösterdiğini gösteriyor. COCO için PaLI-3, BEiT-3 ve 17B ve 55B PaLI dışındaki tüm modellerden üstündür. VQAv2 ve TallyQA'da PaLI-3, PaLI-X hariç önceki tüm modelleri geride bırakıyor. OKVQA görevleri için PaLI-3, yalnızca PaLM-E (562B) ve PaLI-X'in (55B) gerisinde kalıyor, ancak yine de 32 atışlık Flamingo (80B) modelinden daha iyi performans gösteriyor.

Video altyazıları ve Soru-Cevap

Çalışma, PaLI-3 modeline 4 video altyazı kriterinde ince ayar yaptı ve değerlendirdi: MSR-VTT, VATEX, ActivityNet Altyazıları ve Zaman İçinde Konuşulan Anlar. Buna ek olarak, çalışma aynı şeyi 3 video sorusunu yanıtlayan kıyaslamalarda da yaptı: NExT-QA, MSR-VTT-QA ve ActivityNet-QA.

Ön eğitim için video verilerini kullanmamasına rağmen, PaLI-3 küçük bir model boyutuyla mükemmel video QA sonuçları elde etti: MSR-VTT-QA ve ActivityNet-QA'da son teknoloji performans ve NextQA'da rekabetçi sonuçlar. Görüntü ve video QA'daki sürekli iyileştirmeler, karşılaştırmalı bir ViT'yi benimsemenin faydalarını vurgulamaktadır.

Buna ek olarak, PaLI-3, SOTA sonuçlarının yalnızca 3 CIDEr puanı altında ortalama olarak çok iyi video altyazı sonuçları elde eder. Model boyutu göz önüne alındığında, PaLI-3 hem performans hem de pratiklik açısından mükemmel bir seçim gibi görünüyor.

Doğrudan Görüntü Kodlayıcı Değerlendirmesi

Araştırmacılar ayrıca, Tablo 6'da gösterildiği gibi, tam bir PaLI-3 olmadığı anlaşılabilecek ViT-G modelini de değerlendirdiler.

İlk olarak, çalışma, standart ImageNet karşılaştırmasını ve en popüler iki varyantını kullanarak görüntü sınıflandırma yeteneklerini test etti. Sonuçlar, SigLIP'in ilk 1 ve v2 doğruluğunda biraz geride kaldığını, ancak ReaL'de karşılaştırılabilir sonuçlar elde ettiğini gösteriyor.

İkinci olarak, çalışma Crossmodal-3600 kıyaslamasında farklı modellerin sonuçlarını rapor ediyor. Sonuçlar, SigLIP ViT-G modelinin daha büyük ViT-e modelinden önemli ölçüde daha iyi olduğunu gösteriyor.

Son olarak, çalışma, SigLIP'in diğer modellerden daha düşük olduğunu gösteren doğrusal sondalama sonuçlarını da bildirdi.

Tablo 7 ve 8, modelle ilgili adalet, önyargı ve diğer olası sorunları değerlendirmektedir.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)