Önden sağlam GPT-4V! Zhejiang Üniversitesi mezunları açık kaynak çok modlu büyük model LLaVA-1.5, 13 milyar parametre ve 8 A100'ü bir günde eğitebilir

Orijinal kaynak: Xinzhiyuan

Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur

Eylül ayının sonunda OpenAI, ChatGPT'nin çok modlu yetenekleri üzerindeki yasağın kaldırıldığını duyurdu. Çok modlu GPT-4V'nin büyülü yetenekleri herkesin haykırmasına neden oldu: Bu GPT-4.5 mi?

Çok geçmeden GPT-4V'nin açık kaynak rakibi LLaVA-1.5 zaten buradaydı!

Nisan ayında, Wisconsin-Madison Üniversitesi, Microsoft Research ve Columbia Üniversitesi'nden araştırmacılar, yeni bir uçtan uca çok modlu büyük model LLaVA'yı açık kaynaklı hale getirdi.

Yükseltilmiş LLaVA-1.5 artık yalnızca 11 kıyaslama testinde SOTA elde etmekle kalmıyor, aynı zamanda GPT-4V ile doğrudan rekabet edebiliyor.

Araştırmacılar, CLIP-ViT-L-336px'i MLP haritalaması ile kullanarak ve basit yanıt formatı istemleriyle akademik görev odaklı VQA verileri ekleyerek LLaVA-1.5'in performansını önemli ölçüde geliştirdi.

Sonuçlar, daha basit bir mimariye sahip olan LLaVA-1.5'in yalnızca 1,2 milyon genel veriye ihtiyaç duyduğunu gösteriyor; bu, 1,45 milyar eğitim verisi kullanan Qwen-VL'yi ve 130 milyon veri kullanan HuggingFace IDEFICS'i (Flamingo'ya benzer bir 80B modeli) geride bırakabilir.

Bunlardan 13B modelinin eğitimi sadece 8 adet A100 ile 1 günde tamamlanabiliyor.

LLaVA-1.5 sert çubuk GPT-4V

GPT-4V ile rekabet edebileceği söyleniyor ancak LLaVA-1.5'in gücü nedir?

GPT-4V, LLaVA ve LLaVA-1.5 pk'ye izin verelim.

proje adresi:

Soru: "Eğer gerçek hatalar varsa lütfen onları belirtin. Değilse lütfen bana çölde neler olduğunu söyleyin?"

GPT-4V'nin cevabı biraz aptalcaydı: "Üzgünüm, bu soruyu cevaplayamıyorum çünkü bahsettiğiniz çölü gösterecek bir bağlam yok."

LLaVA doğru yanıt verdi: "Resimde şehir ve plaj, şehrin siluetini oluşturuyor ve insanlar gün batımının tadını çıkarıyor. Bu plaj sahnesi aslında çölde, bu da oldukça sıra dışı."

Tek mükemmel puan alan LLaVA-1.5 mükemmel cevabı verdi: "Resimde hiç çöl yok ama palmiye ağaçları, plajlar, şehir silueti ve büyük bir su kütlesi var."

Ayrıca LLaVA-1.5, grafikten bilgi çıkarabilir ve JSON formatında çıktı almak gibi gerekli formatta yanıt verebilir.

LLaVA-1.5'in temel olarak görevi tamamladığı ve GPT-4V ile karşılaştırıldığında hala bazı kusurların olduğu görülüyor.

Benzer şekilde, LLaVA-1.5'e meyve ve sebzelerle dolu bir resim verin; o, resmi GPT-4V gibi JSON'a dönüştürebilir.

Görsel analiz ve akıllı veri dönüşümü, bu kadar basit!

Aşağıdaki soru o kadar kolay değil; bu resim ne anlama geliyor?

Bunun Nolan'ın "Başlangıç" adlı eserine dayanan basitleştirilmiş bir taslak olduğu ortaya çıktı.Zorluğu artırmak için karakterin adı takma isimle değiştirildi.

LLaVA-1.5 şaşırmadı ve kendinden emin bir şekilde cevap verdi: "Bu, 'Başlangıç' filmiyle ilgili bir resim. Rüya dünyasındaki farklı seviyeleri gösteriyor ve her seviye bir çizgiyle temsil ediliyor. Resim Bunu bir kağıt parçasına yazın ve Kağıdı masanın üzerine koy."

Yemek tutkunları sevinirler! İçinizde yemek isteği uyandıran, ağız sulandıran bir fotoğraf görürseniz ne yapmalısınız?

Doğrudan LLaVA-1.5'e gönderin; sizin için hızlı bir şekilde bir tarif oluşturacaktır.

Üstelik LLaVA-1.5, doğrulama kodlarını "jailbreak" yapmadan tanıyabilir.

Ayrıca resimde hangi madalyonun olduğunu da tespit edebiliyor.

Özellikle etkileyici olan şey, LLaVA-1.5'in size resimdeki köpeğin cinsini de söyleyebilmesidir.

Bazı netizenler güneşli bir yaz plajında kışlık palto giyen bir adamın resmini oluşturmak için Bing'i kullandı ve LLaVA 1.5'ten resimde hangi sorunların olduğunu belirtmesini istedi.

Onun ayırt edici gözü çok keskindir ——

Bu, kumsalda duran ceket giyen bir adamın manipüle edilmiş veya photoshoplanmış fotoğrafıdır. Adam ceketini açtı ve güneş onun üzerine parladı. Bu görüntüdeki sorun bunun gerçek bir plaj sahnesi olmamasıdır. Adam aslında kumsalda durmuyordu ve güneş onun üzerinde parlamıyordu. Bu görüntü bir plaj sahnesi yanılsaması yaratmak için photoshoplanmıştır ancak sahneyi tam olarak temsil etmemektedir.

Ancak LLaVA-1.5'in tasarıma göre ön uç kod yazma yeteneği daha zayıftır.

Sonuçlara bakılırsa, çıktısı gerçekten de nispeten kaba...

8 A100, eğitim bir günde tamamlandı

LLaVA modelinin mimarisi, önceden eğitilmiş bir görsel kodlayıcıyı (CLIP ViT-L/14) büyük ölçekli bir dil modeliyle (Vicuna) birbirine bağlar.

İki model, görsel ve dilsel özelliklerin birleşik bir alanda yönetilebilmesi için hizalanmasından veya dönüştürülmesinden sorumlu olan basit bir haritalama matrisiyle birbirine bağlıdır.

Çok modlu talimat takip veri setinde LLaVA, GPT-4'e kıyasla %85,1'lik bir puanla iyi performans gösterdi. Science QA'da LLaVA'nın doğruluğu %92,53'e ulaşarak yeni bir rekor kırdı.

Bu sefer araştırmacılar LLaVA çerçevesini temel alan daha güçlü ve pratik bir temel oluşturdular.

Kağıt adresi:

MLP çapraz mod bağlayıcıları ve akademik görevle ilgili verilerin (VQA gibi) birleştirilmesi, LLaVA'ya daha güçlü çok modlu anlama yetenekleri sağlar.

Yüz milyonlarca, hatta milyarlarca görüntü-metin eşleştirilmiş verisi üzerinde eğitilmiş özel olarak tasarlanmış görsel yeniden örnekleyiciler olan InstructBLIP veya Qwen-VL ile karşılaştırıldığında LLaVA, yalnızca 600K görüntü gerektiren en basit LMM mimari tasarımını kullanır. basit, tamamen bağlantılı haritalama katmanı.

Nihai model, 8 A100 üzerinde bir günde eğitilebiliyor ve çeşitli kıyaslama testlerinde SOTA elde ediyor.

Ayrıca Qwen-VL, eğitim sırasında dahili verileri içerir ancak LLaVA'nın yalnızca genel verilere ihtiyacı vardır.

Hiç şüphe yok ki bu geliştirilmiş ve kolayca tekrarlanabilir temel performanslar, açık kaynak LMM'nin geleceği için değerli bir referans sağlayacaktır.

Performans büyük ölçüde iyileştirildi ve 11 SOTA öğesi yenilendi

Açık kaynaklı bir görsel talimat ince ayar modeli olarak LLaVA, görsel muhakeme yeteneklerinde çok iyi performans gösterir; gerçek hayattaki görsel talimat takip görevlerini temel alan kıyaslama testlerinde LLaVA, en yeni modelleri bile geride bırakır.

Ancak LLaVA, genellikle kelimeler gibi kısa yanıtlar gerektiren akademik ölçütlerde pek iyi performans göstermedi. Bunun nedeni, LLaVA'nın büyük ölçekli veriler üzerinde önceden eğitilmemiş olmasıdır.

Model ölçeklendirme

İlk olarak araştırmacılar, LLM'nin görüntünün ayrıntılarını açıkça "görebilmesi" için giriş görüntüsünün çözünürlüğünü artırdılar ve ek bir görsel bilgi kaynağı olarak GQA veri kümesini eklediler. Ayrıca, LLM'yi 13B'ye genişletmek için ShareGPT verileri de eklenmiştir.

MM-Vet'in sonuçları, LLM'nin 13B'ye genişletilmesi durumunda iyileşmenin en belirgin olduğunu göstermektedir; bu da temel LLM'nin görsel diyalogdaki yeteneğinin çok önemli olduğunu göstermektedir.

Tüm iyileştirmelerden sonra LLaVA-1.5 olarak bilinen son model etkileyici bir performans sergileyerek orijinal LLaVA'yı açık ara geride bıraktı.

Veri, model ve çözünürlük için sonuçları ölçeklendirme

SOTA ile karşılaştırma

Araştırmacılar daha sonra LLaVA-1.5'i çeşitli akademik VQA kriterleri ve özellikle talimat takip eden LMM'ler için önerilen kriterler üzerinde test etti.

Sonuçlar, LLaVA-1.5'in yalnızca daha az eğitim öncesi ve talimat ince ayar verilerini kullanmakla kalmayıp aynı zamanda en iyi performansı elde etmek için en basit mimariden, akademik bilgi işlemden ve genel veri kümelerinden yararlandığını gösteriyor - Elde edilen 12 kıyaslama SOTA'dan 11'inde.

Ayrıca çalışma, LMM yeteneklerinin geliştirilmesinde görsel öğretimin ince ayarının ön eğitimden daha önemli bir rol oynadığını da buldu.

Bu aynı zamanda görsel örnekleyicilerin avantajlarını ve çok modlu öğretim takip yetenekleri açısından ek büyük ölçekli ön eğitimin gerekliliğini yeniden düşünmemizi sağlar.

12 kıyaslamada SOTA yöntemleriyle karşılaştırma

Yanıt biçimi ipuçları

Araştırmacılar, InstructBLIP gibi önceki yöntemlerin kısa biçimli ve uzun biçimli VQA arasında bir denge sağlayamadığını buldu. Bunun ana nedeni şu:——

İlk olarak, yanıt formatına ilişkin yönlendirmeler belirsizdi.

Örneğin, "S: {Soru} A: {Cevap}" ideal çıktı formatını açıkça belirtmez. Doğal görsel diyalog bile LLM'nin kısa formatlı yanıtlara aşırı uyum sağlamasına neden olabilir.

İkincisi, Yüksek Lisans'ta ince ayar yapılmamıştı.

Örneğin, InstructBLIP yalnızca Qformer talimatlarına ince ayar yapar. LLM çıktısının uzunluğunu kontrol etmek için Qformer'ın görsel çıktı tokenını kullanmak mümkün olsa da Qformer, LLaMA gibi LLM'lere kıyasla nispeten sınırlı bir kapasiteye sahiptir, dolayısıyla bunu doğru şekilde yapamayabilir.

Bu sorunu çözmek için araştırmacılar, VQA sorusunun sonuna çıktı formatını açıklığa kavuşturacak ve modelin kısa cevaplar oluşturmasına izin verecek bir ipucu eklenmesini önerdiler. Örneğin: "Soruyu bir kelime veya kelime öbeğiyle yanıtlayın."

LLM ince ayar için bu ipucunu kullandığında, LLaVA kullanıcının talimatlarına göre çıktı formatına doğru şekilde ince ayar yapabilir ve ChatGPT kullanılarak VQA verilerinin ek olarak işlenmesini gerektirmez.

Sonuçlar, eğitime yalnızca VQAv2 eklenmesiyle LLaVA'nın MME üzerindeki performansının önemli ölçüde arttığını (1323,8'e karşı 502,8) gösteriyor; bu, InstructBLIP'ten 111 puan daha yüksek!

### Akademik Görevlere İlişkin Veriler

Araştırmacılar ayrıca modelin yeteneklerini farklı açılardan geliştirmek amacıyla VQA, OCR ve bölgesel düzeyde algıya yönelik akademik görevler için VQA veri setleri ekledi.

İlk olarak InstructBLIP tarafından kullanılan dört ek veri kümesini içeriyordu: Open Knowledge VQA.

Bunlar arasında, A-OKVQA çoktan seçmeli soru formatına dönüştürülür ve belirli bir cevap formatı istemi kullanır - verilen seçeneklerdeki harflerle doğrudan cevap verin.

InstructBLIP tarafından kullanılan veri setinin yalnızca bir alt kümesini kullanan LLaVA, Tablo 1'deki üç görevin hepsinde InstructBLIP'i geride bıraktı; bu da LLaVA'nın tasarımının çok etkili olduğunu gösteriyor.

Ayrıca araştırmacılar, modelin ince taneli görsel ayrıntıları yerelleştirme yeteneğinin, bölge düzeyinde VQA veri kümelerinin daha da eklenmesiyle geliştirilebileceğini buldu.

Sıfır atış formatı talimat genellemesi

LLaVA-1.5, eğitim için yalnızca sınırlı formattaki talimatları kullanmasına rağmen, diğer formattaki talimatlara genellenebilir.

Örneğin, VizWiz, sağlanan içerik soruyu yanıtlamak için yeterli olmadığında modelin "yanıtlanamaz" çıktı vermesini gerektirir ve LLaVA'nın yanıt formatı istemleri, modele bunu yapması için etkili bir şekilde talimat verebilir (cevaplanamayan sorular %11,1 → %67,8'i oluşturur).

### Sıfır vuruşlu çoklu dil özelliği

Aynı zamanda LLaVA-1.5, çoklu dil talimatları için ince ayar yapılmamıştır. Bununla birlikte, ShareGPT büyük miktarda ilgili veri içerdiğinden, birden çok dilde çok modlu komut takibini yine de uygulayabilir.

Araştırmacılar, MMBench'in sorularının Çinceye çevrildiği MMBenchCN üzerinde modelin Çinceye genelleme yeteneğini niceliksel olarak değerlendirdiler.

LLaVA-1.5'in Qwen-VL-Chat'e göre %7,3 daha doğru olduğunu belirtmekte fayda var (%63,6'ya karşı %56,7). Bunlar arasında Qwen, Çin çok modlu talimatlarında ince ayar yaparken LLaVA-1.5 bunu yapmadı.

Bilgi işlem maliyetleri

LLaVA-1.5 için araştırmacılar, LCS-558K ile aynı eğitim öncesi veri setini kullandılar ve LLaVA ile kabaca aynı sayıda talimat ince ayarı eğitim yinelemesini ve toplu boyutu tuttular.

Görüntü giriş çözünürlüğü 336 piksele yükseltildiği için LLaVA-1.5'in eğitim süresi LLaVA'nın 2 katıdır: 6 saatlik ön eğitim ve 8 A100 kullanılarak 20 saatlik görsel talimat ince ayarı.

Sınırlamalar

LLaVA-1.5 çok iyi sonuçlar elde etmiş olsa da hala bazı sınırlamalarının bulunduğunu kabul etmek gerekir.

İlk olarak LLaVA, her eğitim yinelemesinin süresini uzatabilecek tam görüntü yamaları kullanır.

İkinci olarak, LLaVA-1.5, verileri takip etmek için bu tür talimatların bulunmaması ve bağlam uzunluğunun sınırlandırılması nedeniyle henüz birden fazla görüntüyü işleyemiyor.

Üçüncüsü, LLaVA-1.5 karmaşık talimatları ustaca takip edebilse de, bazı alanlarda problem çözme yetenekleri hala sınırlı olacaktır ve bu, daha güçlü dil modelleri ve yüksek kaliteli, hedefe yönelik görsel talimatlarla verilere ince ayar yapılarak elde edilebilir.

Son olarak, LLaVA-1.5 kaçınılmaz olarak halüsinasyonlara ve yanlış bilgiye eğilimlidir ve bu nedenle tıbbi gibi kritik uygulamalarda dikkatli kullanılmalıdır.

yazar hakkında

Haotian Liu

Haotian Liu, Wisconsin-Madison Üniversitesi'nde bilgisayar bilimleri alanında Profesör Yong Jae Lee'nin gözetiminde doktora öğrencisidir. Daha önce Zhejiang Üniversitesi'nden lisans derecesi almıştı.

Araştırma ilgi alanları bilgisayarlı görme ve makine öğrenimi, özellikle de görsel algı ve anlamaya yönelik etkili algoritmalardır. Son araştırmalar, insan niyetlerine dayalı olarak özelleştirilebilir büyük modeller oluşturmaya odaklandı.

Chunyuan Li

Chunyuan Li, Microsoft Research Redmond'da baş araştırmacıdır.

Daha önce, danışmanının Profesör Lawrence Carin olduğu Duke Üniversitesi'nden makine öğrenimi alanında doktora derecesi almıştı. NeurIPS, ICML, ICLR, EMNLP ve AAAI'nin saha başkanlığının yanı sıra IJCV'nin konuk editörü olarak görev yaptı.

Son araştırmaları bilgisayarlı görü ve doğal dil işlemede büyük ölçekli ön eğitime odaklanıyor. Örneğin, insanın niyetlerini takip eden büyük ölçekli çok modlu modeller, görsel ve dil ön eğitimi ve büyük ölçekli derin üretken modeller oluşturmak.

Yuheng Li

Yuheng Li, Wisconsin-Madison Üniversitesi'nde bilgisayar bilimleri alanında Profesör Yong Jae Lee'nin danışmanlığında doktora öğrencisidir. Daha önce lisans derecesini Huazhong Bilim ve Teknoloji Üniversitesi'nden almıştı.

Araştırma ilgi alanları kontrol edilebilir çok modlu görüntü oluşturma ve işleme ile yaratıcı vizyonla ilgili diğer problemlerdir.

Referanslar:

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)