Görsel ipuçlarına "işaretçiler" ekleyin, Microsoft ve diğerleri GPT-4V'yi daha doğru ve daha ayrıntılı hale getirir

OpenAI çok modlu büyük model GPT-4V'nin görsel içerik anlayışını geliştiren yeni bir görsel işaret yöntemi SoM (Set-of-Mark).

Orijinal kaynak: Makinenin Kalbi

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Son zamanlarda, büyük dil modellerinde (LLM'ler) önemli ilerlemelere tanık olduk. Özellikle, üretken önceden eğitilmiş Transformers'ın veya GPT'lerin piyasaya sürülmesi, endüstride ve akademide çeşitli atılımlara yol açmıştır. GPT-4'ün piyasaya sürülmesinden bu yana, büyük çok modlu modeller (LMM'ler), çok modlu GPT-4 oluşturmaya adanmış çok sayıda çalışmayla araştırma topluluğunda artan bir ilgi gördü.

Son zamanlarda, GPT-4V (ision), mükemmel çok modlu algılama ve akıl yürütme yetenekleri nedeniyle özel ilgi gördü. Bununla birlikte, GPT-4V'nin benzeri görülmemiş görsel dil anlama yeteneklerine rağmen, ince taneli görsel temellemesi (girdi bir resim ve karşılık gelen nesne açıklamasıdır, çıktı bir nesneyi tanımlayan bir kutudur) nispeten zayıftır veya henüz geliştirilmemiştir.

Örneğin, bir kullanıcı aşağıdaki şekilde "Dizüstü bilgisayarın sol tarafına sağda hangi nesne yerleştiriliyor?" diye sorduğunda. GPT-4V bardağa yanlış cevap veriyor. Kullanıcı daha sonra "Bir pencere koltuğu bulmak istiyorum, nereye oturabilirim?" diye sorar. GPT-4V de yanlış cevap verdi.

Yukarıdaki sorunları fark ettikten sonra, Microsoft, Hong Kong Bilim ve Teknoloji Üniversitesi ve diğer kurumlardan araştırmacılar, ince taneli görme görevlerinde GPT-4V sorununu çözmek için yeni bir görüş yöntemi Set-of-Mark (SoM) önerdiler.

* Bildiri Adresi:

  • Kağıt Ana Sayfası:

Şekil 1'de (sağda) gösterildiği gibi, SoM, görüntüyü farklı ayrıntı düzeylerindeki bölgelere bölmek ve bu bölgelere alfasayısal, maske, kutu gibi bir dizi işaretçi eklemek için SAM gibi etkileşimli bir segmentasyon modeli kullanır. Yukarıdaki sorunu çözmek için girdi olarak etiketli bir resim kullanın.

Önce etkiye bir göz atalım, solda GPT-4V, sağda GPT-4V + SoM, ikinci sınıflandırmanın daha ayrıntılı ve doğru olduğu açıktır.

Aşağıdaki örnek hala aynıdır ve GPT-4V+SoM etkisi daha belirgindir.

Ek olarak, bu çalışma için birisi "SoM manuel (manuel giriş) mi yoksa otomatik mi?" diye sordu.

Jianwei Yang'a göre, SoM otomatik veya yarı otomatiktir. Kullanıcıların görüntüleri kendileri için otomatik olarak segmentlere ayırmalarına yardımcı olmak için SEEM, Semantic-SAM ve SAM gibi kendi segmentasyon araçlarının çoğunu derlediler. Aynı zamanda, kullanıcılar kendi bölgelerini de seçebilirler.

Görme için SoM

SoM GPT-4V kullanmanın benzersiz avantajı, metnin ötesinde çıktı üretebilmesidir. Her işaretçi özel olarak bir maske ile temsil edilen bir görüntü bölgesiyle ilişkilendirildiğinden, metin çıktısında bahsedilen herhangi bir işaretçinin maskesi izlenebilir.

Eşleştirilmiş metin ve maskeler oluşturma yeteneği, SoM GPT-4V'nin görsel olarak çağrışımsal metin oluşturmasını ve daha da önemlisi, yaygın GPT-4V modelleri için bir zorluk olan çeşitli ince taneli görme görevlerini desteklemesini sağlar.

Basit mühendislik sayesinde SoM, GPT-4V'nin aşağıdakiler gibi çeşitli görme görevleri için yaygın olarak kullanılmasına olanak tanır:

  • Açık Kelime Görüntüsü Segmentasyonu: Çalışma, GPT-4V'nin önceden belirlenmiş bir havuzdan seçilen kategorilerin yanı sıra tüm etiketli bölgelerin kategorilerinin kapsamlı bir temsilini vermesini gerektirdi.
  • Referans Segmentasyonu: Bir referans ifadesi verildiğinde, GPT-4V'nin görevi, Görüntü Bölümleme Araç Kutusu tarafından oluşturulan aday bölgelerden en iyi eşleşen bölgeyi seçmektir.
  • Cümle Topraklama: Referans segmentasyonundan biraz farklı olarak, kelime öbeği ilişkilendirmesi, birden fazla isim tamlamasından oluşan tam cümleler kullanır. Çalışma, GPT-4V'nin tüm etiketli ifadelere uygun bölgeler atamasını gerektiriyordu.
  • Video Nesnesi Segmentasyonu: Giriş olarak iki görüntü alın. İlk görüntü, ikinci görüntüde tanınması gereken bazı nesneleri içeren bir sorgu görüntüsüdür. GPT-4V'nin girdi olarak birden fazla görüntüyü desteklediği göz önüne alındığında, SoM'ler videodaki kareler arasında ilişkili görsellere de uygulanabilir.

Deneyler ve Sonuçlar

Araştırmacılar, deneyleri ve değerlendirmeleri yürütmek için bir "böl ve yönet" stratejisi kullanıyorlar. Her örnek için, değerlendirme sırasında bağlam sızıntısı olmaması için yeni bir sohbet penceresi kullanırlar.

Spesifik olarak, araştırmacılar her bir veri kümesinden küçük bir doğrulama verisi alt kümesi seçtiler. Veri kümesindeki her görüntü için, Görüntü Segmentasyonu araç kutusu kullanılarak çıkarılan alana bir dizi işaretleyici yerleştirdiler. Aynı zamanda, belirli görevlere dayanarak, araştırmacılar bölgeleri önermek için farklı segmentasyon araçları kullanırlar.

Aşağıdaki Tablo 1, her görev için kurulum ayrıntılarını listeler.

Araştırmacılar yöntemlerini aşağıdaki modellerle karşılaştırdılar:

  • Tahmin edilen koordinatlar için GPT-4V temel modeli
  • SOTA'ya özel model
  • Açık kaynak LMM

Nicel Sonuçlar

Ayrıntılı deney sonuçları aşağıdaki Tablo 2'de gösterilmektedir.

Birincisi, görüntü segmentasyon görevidir. Araştırmacılar, GPT-4V+SoM'yi COCO Panoptik segmentasyon veri kümesindeki güçlü segmentasyon modeli MaskDINO ve ADE20K Panoptik segmentasyon veri setindeki OpenSeeD ile karşılaştırdı.

Sonuçlar, GPT-4V + SoM'nin sıfır örnekleme performansının ince ayarlı MaskDINO'ya yakın ve OpenSeeD'den önemli ölçüde daha iyi olduğunu gösteriyor. GPT-4V'nin COCO ve ADE20K üzerindeki benzer performansı, çok çeşitli görsel ve anlamsal etki alanı görevleri için güçlü genelleme yeteneklerini gösterir.

Ardından, araştırmacıların RefCOCOg veri setinde RES ve REC modelini değerlendirdiği yönlendirme görevi geldi. Bir maske bulmak ve maskeyi ve sayıları görüntünün üzerine yerleştirmek için MaskDINO'yu kullandılar. Her iki mIoU da bir değerlendirme metriği olarak kullanıldı ve SOTA'ya özgü modeller PolyFormer ve SEESURE ile karşılaştırıldı.

Sonuçlar, GPT-4V+SoM'nin Grounding DINO, Polyformer gibi özel modelleri ve Shikra, LLaVA-1.5, MiniGPT-v2 ve Ferret gibi yeni açık kaynaklı LMM'leri geride bıraktığını gösteriyor.

Bunu, araştırmacıların her görüntü için kutu önerileri oluşturmak için Grounding DINO'yu kullandıkları Flickr30K'daki ifade ilişkilendirme görevi izledi. GPT-4V+SoM, GLIPv2 ve Topraklama INO'dan daha güçlü sıfır örnekleme performansı sağlar.

Son olarak, araştırmacılar DAVIS2017 veri kümesindeki video segmentasyon görevini değerlendirdi. GPT-4V+SoM, diğer özel görüş modellerine göre en iyi izleme performansını (78,8 J&F) elde eder.

Ablasyon çalışmaları

Araştırmacılar, etiket türlerinin Flickr30k veri kümesindeki tümcecik ilişkilendirme görevlerinin nihai performansını nasıl etkilediğini araştırıyor ve iki etiket türünü karşılaştırıyor. Birincisi sayılar ve maskeler, ikincisi ise sayılar, maskeler ve kutulardır.

Sonuçlar aşağıdaki Tablo 3'te gösterilmiştir ve ek kutular eklemek performansı önemli ölçüde artırabilir.

Ayrıca araştırmacılar, GPT-4V'nin doğruluk açıklamalarına sahip belirteçler oluştururken nasıl davrandığını araştırdı. Tahmin edilen segmentasyon maskesini RefCOCOg doğrulama setindeki bir doğruluk maskesiyle değiştirmeyi seçtiler. Bu, GPT-4V'nin açıklama cümlesi alanından yalnızca birini seçmesi gerektiği anlamına gelir. Beklendiği gibi, özellikle segmentasyon modelinde bazı eksik bölgeler varsa, referans segmentasyonunun performansı daha da geliştirilebilir.

Aşağıdaki Tablo 4'te gösterildiği gibi, SoM'de doğruluk maskelerinin kullanılması RefCOCOg'deki performansı %14,5 (mIoU) oranında artırabilir.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)