GPT-4V ile yüzleşin! Google'ın PaLI-3 görsel dil modeli daha küçük, daha hızlı ve daha güçlü çıktı

Kaynak: Akademik Manşetler

Görüntü kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur

Geçen ay, ChatGPT resmi olarak görüntü ve konuşma tanıma özelliklerini başlattı.

Bu ayın başlarında Microsoft, GPT-4V ile ilgili belgelerin GPT-4V ile ilgili belgelerin 166 sayfalık çok modlu bir sürümünü yayınladı ve GPT-4V'nin işlevlerini ve kullanımını detaylandırdı ve sektörde büyük ilgi gördü.

Bununla birlikte, Google, görsel dil modelleri yarışında geride bırakılmamalıdır. **

Son zamanlarda, Google Research, Google DeepMind ve Google Cloud, 10 kat daha büyük benzer modellerle önemli ölçüde rekabet eden daha küçük, daha hızlı ve daha güçlü bir görsel dil modeli (VLM) olan PaLI-3'ü ortaklaşa piyasaya sürdü.

Araştırmacılar, kategorik hedefler kullanılarak önceden eğitilmiş görsel transformatör (ViT) modelini kontrastlı önceden eğitilmiş model (SigLIP) ile karşılaştırdılar ve PaLI-3'ün standart görüntü sınıflandırma kıyaslamalarında biraz düşük performans gösterirken, SigLIP tabanlı PaLi'nin çeşitli multimodal kıyaslamalarda, özellikle yerelleştirme ve metin anlamada mükemmel performans gösterdiğini buldular.

"PaLI-3 Vision Language Models: Smaller, Faster, Stronger" başlıklı araştırma makalesi, ön baskı web sitesi arXiv'de yayınlandı.

Araştırma ekibi, yalnızca 5 milyar parametreye sahip PaLI-3'ün, karmaşık VLM'lerin temel bileşenleri üzerindeki araştırmaları yeniden alevlendirdiğine ve potansiyel olarak yeni nesil daha büyük modellerin geliştirilmesini sağladığına inanıyor.

Daha yüksek çözünürlüklü çok modlu öğrenme

Daha yakın zamanlarda, büyük görsel dil modelleri, bazıları denetimli sınıflandırma (örneğin PaLI, PaLI-X, Flamingo, PaLM-E), bazıları önceden eğitilmiş CLIP kodlayıcılar (örneğin BLIPv2, CrossTVR, ChatBridge) ve bazıları özel çok modlu ön eğitim (örneğin BEiT3, CoCa, SimVLM) kullanılarak önceden eğitilmiş görüntü kodlayıcıları kullanmıştır.

**Bu çalışmanın eğitim yöntemi üç ana bileşenden oluşmaktadır: görüntü kodlayıcıların ağ ölçeğinde görüntü metni verileri üzerinde kontrastlı ön eğitimi, geliştirilmiş PaLI çok modlu eğitim verilerinin harmanlanması ve daha yüksek çözünürlüklerde eğitim. **

Tek modlu ön eğitim aşamasında, görüntü kodlayıcı, web'deki görüntü metni eşleştirmesi üzerinde karşılaştırmalı ön eğitim için SigLIP eğitim protokolünü kullanır. Araştırmacılar, eşleşmelerin yaklaşık yüzde 40'ını koruyan model tabanlı bir filtreleme yöntemi kullandılar. Görüntü kodlayıcı 224×224 çözünürlükte eğitilmiştir. Metin kodlayıcı-kod çözücü, hibrit bir gürültü giderme programı üzerinde eğitilmiş bir 3B UL2 modelidir.

Çok modlu eğitim aşamasında, araştırmacılar bir PaLI modeli oluşturmak için bir görüntü kodlayıcıyı bir metin kodlayıcı-kod çözücü ile birleştirdiler. Bu model, yerel çözünürlük (224×224) kullanılarak görüntü kodlayıcıyı donmuş halde tutarak çok modlu görevler için eğitilmiştir.

Ana veri karışımı, filtrelenmiş ve belirli eğitim hedefleriyle birlikte kullanılan WebLI veri kümelerinden gelir. Diğer öğeler arasında çok dilli altyazı, OCR işleme, diller arası MYK ve VQG, nesneye duyarlı MYK ve nesne algılama yer alır. Videodaki görevleri veya verileri dahil etmese de, PaLI-3, güçlü görüntü kodlayıcısı sayesinde bu kıyaslamalarda hala rekabetçidir. Buna ek olarak, WebLI'ye 100'den fazla dilde metnin yanı sıra posterler veya belgeler gibi yoğun metin ve web görüntüleri içeren PDF belgeleri eklenerek belge ve görüntü anlama daha da geliştirildi.

Çözünürlüğü artırma aşamasında, PaLI-3'ün çözünürlüğü, tüm modele ince ayar yapılarak (görüntü kodlayıcının çözülmesi) ve çözünürlüğü kademeli olarak artıran kısa dersler kullanılarak, kontrol noktaları 812×812 ve 1064×1064 çözünürlüklerde tutularak incelenir. Veri harmanlama, esas olarak metnin görsel olarak konumlandırılmasını ve nesne algılamayı içeren parçalara odaklanır.

Görüntü Anlama ve Metin Konumlandırma Görevini İyileştirin

İlk olarak, araştırmacılar PaLI çerçevesinde farklı ViT modellerinin kontrollü bir karşılaştırmasını yaptılar. SigLIP modelinin küçük örneklem doğrusal sınıflandırmasında düşük performansa sahip olmasına rağmen, PaLI-3'te kullanıldığında, SigLIP modelinin altyazı ve soru yanıtlama gibi "basit" görevlerde mütevazı performans kazanımları sağladığı ve TextVQA ve RefCOCO varyantları gibi daha "karmaşık" sahne metni ve uzamsal anlama görevlerinde büyük iyileştirmeler sağladığı bulunmuştur. **

PaLI-3 daha sonra doğal görüntüler, illüstrasyonlar, belgeler ve kullanıcı arayüzlerinden oluşan veri kümelerindeki görüntülerle görsel olarak konumlandırılmış bir metin anlama görevinde değerlendirildi. **PaLI-3, harici OCR girişi olsun ya da olmasın, çoğu altyazı ve VQA kıyaslamasında son teknoloji performansa ulaşır. Bunun tek istisnası, yalnızca anlamayı değil, aynı zamanda grafikler hakkında güçlü bir akıl yürütmeyi de gerektiren AI2D ve ChartQA'dır. Her iki kıyaslama için de PaLI-3, PaLI-X'in biraz gerisinde kalıyor.

Ek olarak, araştırmacılar PaLI-3'ün dil benzeri çıktılarla segmentasyon maskelerini tahmin etme yeteneklerini genişlettiler. Deneysel sonuçlar, bu tür bir yerelleştirme görevi için karşılaştırmalı ön eğitimin sınıflandırma ön eğitiminden daha etkili olduğunu göstermektedir. **Komple PaLI-3 modeli, parmak gösterimi açısından son teknoloji yöntemlerden biraz daha üstündür. **

Doğal Görüntü Anlama bölümünde, PaLI-3, COCO altyazı ve VQAv2** dahil olmak üzere genel görsel dil anlama görevlerinde değerlendirildi,** son SOTA modellerine kıyasla ölçek olarak çok daha küçük olmasına rağmen, PaLI-3 bu kıyaslamalarda çok iyi performans gösterdi. **

Video altyazısı ve Soru-Cevap bölümlerinde, araştırmacılar PaLI-3 modelini 4 video altyazı kriterinde ince ayar yaptılar ve değerlendirdiler: MSR-VTT, VATEX, ActivityNet Altyazıları ve Zaman İçinde Konuşulan Anlar. Aynı test daha sonra 3 video sorusu yanıtlama karşılaştırmasında gerçekleştirildi: NExT-QA, MSR-VTT-QA ve ActivityNet-QA. **Video verileriyle ön eğitim olmamasına rağmen, PaLI-3 daha küçük bir model boyutunda mükemmel video kalite güvencesi sonuçları elde etti. **

Sonuç olarak, bu çalışmada araştırmacılar, VLM'de, özellikle PaLI tipi modellerde görüntü kodlayıcıların ön eğitimini incelediler. İlk kez, iki sınıflandırma ön eğitimi ve görüntü metni (kontrast) ön eğitimi yöntemi açıkça karşılaştırılmış ve ikincisinin, özellikle yerelleştirme ve metin anlama görevlerinde daha iyi ve daha verimli VLM'ye yol açtığı bulunmuştur.

Buna ek olarak, araştırmacılar makalede şunları belirtiyorlar: "Bu, VLM'nin sadece küçük bir yönü ve bu çalışmanın ve sonuçlarının, VLM eğitiminin diğer birçok yönünün daha derin bir şekilde araştırılmasına ilham vereceğini umuyoruz." "

Kağıt Bağlantısı:

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)