Görüntü ve metin oluşturmayı birleştiren MiniGPT-5 karşınızda: Token, Voken'e dönüşüyor ve model yalnızca yazmaya devam etmekle kalmıyor, aynı zamanda otomatik olarak resim de ekleyebiliyor.
OpenAI'nin GPT-5 büyük modeli çok uzakta gibi görünüyor, ancak bazı araştırmacılar yenilikçi görsel ve diller arası nesiller arası model MiniGPT-5'in başlatılmasına öncülük etti. Bunun tutarlı metinsel açıklamalara sahip görseller oluşturma açısından önemli sonuçları vardır.
Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur
Büyük modeller, dil ve görüntü arasında geçiş yaparak metin ve görüntü içeriğini sorunsuz bir şekilde anlayıp oluşturmayı vaat ediyor. Son zamanlarda yapılan bir dizi çalışmada, çok modlu özellik entegrasyonu yalnızca büyüyen bir trend olmakla kalmıyor, aynı zamanda çok modlu konuşmalardan içerik oluşturma araçlarına kadar önemli ilerlemelere de yol açıyor. Büyük dil modelleri, metin anlama ve oluşturma konusunda benzersiz yetenekler sergilemiştir. Ancak tutarlı metinsel anlatılarla eş zamanlı görseller oluşturmak hâlâ geliştirilecek bir alandır.
Son zamanlarda, Santa Cruz'daki Kaliforniya Üniversitesi'nden bir araştırma ekibi, "üretken oylama" kavramına dayanan yenilikçi bir aralıklı görsel dil oluşturma teknolojisi olan MiniGPT-5'i önerdi.
* Kağıt adresi:
*proje adresi:
MiniGPT-5, Stabil Difüzyon mekanizmasını LLM ile özel bir görsel belirteç olan "üretken oylama" aracılığıyla birleştirerek, yetenekli çok modlu nesil için yeni bir modelin müjdesini veriyor. Aynı zamanda, bu makalede önerilen iki aşamalı eğitim yöntemi, açıklama gerektirmeyen temel aşamanın önemini vurgulayarak, veriler kıt olduğunda bile modelin "gelişmesine" olanak tanır. Yöntemin genel aşaması, alana özgü açıklamalar gerektirmemektedir, bu da çözümümüzü mevcut yöntemlerden farklı kılmaktadır. Oluşturulan metin ve görsellerin uyumlu olmasını sağlamak için bu makalenin çift kayıp stratejisi devreye giriyor ve üretken oylama yöntemi ve sınıflandırma yöntemi bu etkiyi daha da artırıyor.
Bu teknikleri temel alan bu çalışma, dönüştürücü bir yaklaşıma işaret ediyor. ViT (Vision Transformer) ve Qformer'ın yanı sıra büyük dil modellerini kullanan araştırma ekibi, çok modlu girdileri üretken oylara dönüştürüyor ve bağlama duyarlı görüntü üretimi elde etmek için bunları yüksek çözünürlüklü Stable Diffusion2.1 ile sorunsuz bir şekilde eşleştiriyor. Bu makale, görüntüleri yardımcı girdi olarak talimat ayarlama yöntemleriyle birleştirerek metin ve görüntü oluşturma kayıplarının kullanılmasına öncülük ederek metin ve görüntü arasındaki sinerjiyi genişletir.
MiniGPT-5, CLIP kısıtlamaları gibi modelleri eşleştirir ve alana özgü ek açıklamalara dayanmadan daha iyi çok modlu sonuçlar elde etmek için difüzyon modelini MiniGPT-4 ile akıllıca entegre eder. En önemlisi, stratejimiz çok modlu görsel dilin temel modellerindeki ilerlemelerden faydalanabilir ve çok modlu üretken yetenekleri geliştirmek için yeni bir plan sağlayabilir.
Aşağıdaki şekilde gösterildiği gibi, MiniGPT5 orijinal çok modlu anlayış ve metin oluşturma yeteneklerine ek olarak makul ve tutarlı çok modlu çıktı da sağlayabilir:
Bu makalenin katkısı üç açıdan yansıtılmaktadır:
Yeni bir genel amaçlı tekniği temsil eden ve LLM ve tersine çevrilmiş üretken Voken'lerden daha etkili olduğu kanıtlanmış çok modlu bir kodlayıcının kullanılması ve aralıklı görsel ve dil çıktıları oluşturmak için bunu Kararlı Difüzyon ile birleştirilmesi önerilir (Multimodal) multimodal oluşturma yeteneğine sahip dil modeli).
Açıklama gerektirmeyen çok modlu nesil için yeni iki aşamalı eğitim stratejisini vurgular. Tek modlu hizalama aşaması, çok sayıda metin-görüntü çiftinden yüksek kaliteli metin hizalı görsel özellikler elde eder. Çok modlu öğrenme aşaması, vizyon ve metnin iyi bir şekilde koordine edilebilmesini ve oluşturulabilmesini sağlayan yeni bir eğitim görevi olan bağlam oluşturmayı içerir. Eğitim aşaması sırasında sınıflandırıcı içermeyen rehberliğin eklenmesi üretim kalitesini daha da artırır.
Diğer çok modlu üretken modellerle karşılaştırıldığında MiniGPT-5, CC3M veri kümesinde en gelişmiş performansı elde eder. MiniGPT-5 ayrıca VIST ve MMDialog gibi ünlü veri kümeleri üzerinde yeni ölçütler oluşturdu.
Şimdi çalışmanın detaylarına bir göz atalım.
Yönteme Genel Bakış
Büyük ölçekli dil modellerinin çok modlu üretim yeteneklerine sahip olmasını sağlamak için araştırmacılar, önceden eğitilmiş çok modlu büyük ölçekli dil modellerini ve metinden görüntüye oluşturma modellerini birleştiren yapılandırılmış bir çerçeve tanıttı. Farklı model alanları arasındaki farkları çözmek için, doğrudan orijinal görüntüler üzerinde eğitilebilen "üretken oylar" (üretken oylar) özel görsel semboller eklediler. Ek olarak, üretim kalitesini daha da artırmak için sınıflandırıcı içermeyen bir önyükleme stratejisiyle birleştirilen iki aşamalı bir eğitim yöntemi geliştirildi.
Çok modlu giriş aşaması
Çok modlu büyük modellerdeki (MiniGPT-4 gibi) son gelişmeler esas olarak görüntüleri sürekli giriş olarak işleyebilen çok modlu anlayışa odaklanmaktadır. İşlevselliğini çok modlu nesile genişletmek amacıyla araştırmacılar, görsel özelliklerin çıktısını almak üzere özel olarak tasarlanmış üretken Voken'leri tanıttı. Buna ek olarak, çok modlu çıktı öğrenimi için geniş bir dil modeli (LLM) çerçevesinde parametre açısından verimli ince ayar tekniklerini de benimsediler.
Çok modlu çıktı üretimi
Üretken belirteçleri üretken modellerle doğru bir şekilde hizalamak için, boyutsallık eşleştirmesi için kompakt bir haritalama modülü formüle ediyoruz ve metin alanı kaybı ve gizli yayılma modeli kaybı dahil olmak üzere çeşitli denetlenen kayıpları dahil ediyoruz. Metin alanı kaybı, modelin belirteçlerin doğru lokalizasyonunu öğrenmesine yardımcı olurken, gizli yayılma kaybı, belirteçleri doğrudan uygun görsel özelliklerle hizalar. Üretken sembollerin özellikleri doğrudan görüntüler tarafından yönlendirildiğinden, bu yöntem kapsamlı görüntü açıklamaları gerektirmemekte ve açıklama gerektirmeden öğrenmeyi mümkün kılmaktadır.
Eğitim Stratejisi
Metin alanı ile görüntü alanı arasında göz ardı edilemez bir alan değişikliği olduğu göz önüne alındığında, araştırmacılar doğrudan sınırlı bir aralıklı metin ve görsel veri kümesi üzerinde eğitimin yanlış hizalamaya ve görüntü kalitesinde bozulmaya yol açabileceğini buldu.
Bu nedenle bu sorunu hafifletmek için iki farklı eğitim stratejisi kullandılar. İlk strateji, yayılma süreci boyunca oluşturulan belirteçlerin etkinliğini artırmak için sınıflandırıcıdan bağımsız önyükleme tekniklerinin kullanılmasını içerir; ikinci strateji iki aşamada ortaya çıkar: kaba özellik hizalamasına odaklanan bir başlangıç öncesi eğitim aşaması ve ardından ince ayar aşaması. karmaşık özellik öğrenimi üzerine.
Deney ve sonuçlar
Modelin etkinliğini değerlendirmek için araştırmacılar, birden fazla kriter üzerinde bir dizi değerlendirme gerçekleştirdi. Deney birkaç temel soruyu ele almayı amaçlıyor:
MiniGPT-5 inandırıcı görüntüler ve anlamlı metinler üretebilir mi?
MiniGPT-5, tek turlu ve çok turlu serpiştirilmiş görsel dil oluşturma görevlerinde diğer SOTA modelleriyle karşılaştırıldığında nasıl performans gösteriyor?
Her bir modülün tasarımının genel performans üzerindeki etkisi nedir?
Modelin performansını farklı eğitim aşamalarında farklı kriterler üzerinde değerlendirmek için MiniGPT-5'in niceliksel analiz örnekleri aşağıdaki Şekil 3'te gösterilmektedir:
Buradaki değerlendirme, önerilen modelin genelliğini ve sağlamlığını göstermek için hem görsel (görüntüyle ilgili ölçümler) hem de dilsel (metin-metrikler) alanları kapsamaktadır.
VIST Son Adım Değerlendirmesi
İlk deney grubu, tek adımlı değerlendirmeyi, yani son adımdaki modele dayalı olarak karşılık gelen görüntülerin oluşturulmasını içerir ve sonuçlar Tablo 1'de gösterilmektedir.
MiniGPT-5, her üç ayarda da ince ayarlı SD 2'den daha iyi performans gösteriyor. MiniGPT-5 (LoRA) modelinin CLIP puanı, özellikle görselleri ve metni birleştirirken, birçok türde sürekli olarak diğer varyantlardan daha iyi performans gösteriyor. Öte yandan, FID puanı MiniGPT-5 (Önek) modelinin rekabetçiliğini vurgulayarak, görüntü yerleştirme kalitesi (CLIP puanı tarafından yansıtılan) ile görüntü çeşitliliği ve orijinalliği (önek tarafından yansıtılan) arasında bir denge olabileceğini gösterir. FID puanı). Tek modlu kayıt aşamasını içermeyen (UAS'siz MiniGPT-5) doğrudan VIST üzerinde eğitilen bir modelle karşılaştırıldığında, model anlamlı görüntüler oluşturma yeteneğini korusa da görüntü kalitesi ve tutarlılığı önemli ölçüde azalır. Bu gözlem, iki aşamalı bir eğitim stratejisinin önemini vurgulamaktadır.
VIST Çok Adımlı Değerlendirme
Daha ayrıntılı ve kapsamlı bir değerlendirmede araştırmacılar, sistematik olarak modele önceki tarihsel bağlamı sağladı ve ardından her adımda ortaya çıkan görselleri ve anlatıları değerlendirdi.
Tablo 2 ve 3, sırasıyla görüntü ve dil ölçümlerinin performansını özetleyerek bu deneylerin sonuçlarını özetlemektedir. Deneysel sonuçlar, MiniGPT-5'in, orijinal modelin çok modlu anlama yeteneklerini etkilemeden, tüm verilerde uzun yatay çok modlu girdileri kullanarak tutarlı, yüksek kaliteli görüntüler oluşturabildiğini göstermektedir. Bu, MiniGPT-5'in farklı ortamlardaki etkinliğini vurgulamaktadır.
VIST İnsan Değerlendirmesi
Tablo 4'te gösterildiği gibi MiniGPT-5, vakaların %57,18'inde daha uygun metin anlatımları oluşturdu, vakaların %52,06'sında daha iyi görüntü kalitesi sağladı ve sahnelerin %57,62'sinde daha tutarlı çoklu mod durum çıktısı üretti. Dilek kipi olmadan metinden resme anlatımı benimseyen iki aşamalı temel ile karşılaştırıldığında, bu veriler onun daha güçlü çok modlu oluşturma yeteneklerini açıkça göstermektedir.
MMDialog'un birden fazla değerlendirme turu
Sonuçlar Tablo 5'te gösterilmektedir. MiniGPT-5, daha doğru metin yanıtları oluşturmada temel model Divter'dan daha iyi performans gösterir. Oluşturulan görüntüler benzer kalitede olsa da MiniGPT-5, MM korelasyonunda temel modelden daha iyi performans gösteriyor; bu da görüntü oluşturmayı uygun şekilde nasıl konumlandıracağını ve oldukça tutarlı çok modlu yanıtlar üretmeyi daha iyi öğrenebileceğini gösteriyor.
Etkisi nedir? MiniGPT-5'in çıktısına bir göz atalım. Aşağıdaki Şekil 7, MiniGPT-5 ve CC3M doğrulama setlerindeki temel modellerin karşılaştırmasını göstermektedir.
Aşağıdaki Şekil 8, MiniGPT-5 ile VIST doğrulama setindeki temel model arasındaki karşılaştırmayı göstermektedir.
Aşağıdaki Şekil 9, MiniGPT-5 ile MMDialog test setindeki temel model arasındaki karşılaştırmayı göstermektedir.
Daha fazla araştırma ayrıntısı için lütfen orijinal makaleye bakın.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Görüntü ve metin oluşturmayı birleştiren MiniGPT-5 karşınızda: Token, Voken'e dönüşüyor ve model yalnızca yazmaya devam etmekle kalmıyor, aynı zamanda otomatik olarak resim de ekleyebiliyor.
Büyük modeller, dil ve görüntü arasında geçiş yaparak metin ve görüntü içeriğini sorunsuz bir şekilde anlayıp oluşturmayı vaat ediyor. Son zamanlarda yapılan bir dizi çalışmada, çok modlu özellik entegrasyonu yalnızca büyüyen bir trend olmakla kalmıyor, aynı zamanda çok modlu konuşmalardan içerik oluşturma araçlarına kadar önemli ilerlemelere de yol açıyor. Büyük dil modelleri, metin anlama ve oluşturma konusunda benzersiz yetenekler sergilemiştir. Ancak tutarlı metinsel anlatılarla eş zamanlı görseller oluşturmak hâlâ geliştirilecek bir alandır.
Son zamanlarda, Santa Cruz'daki Kaliforniya Üniversitesi'nden bir araştırma ekibi, "üretken oylama" kavramına dayanan yenilikçi bir aralıklı görsel dil oluşturma teknolojisi olan MiniGPT-5'i önerdi.
MiniGPT-5, Stabil Difüzyon mekanizmasını LLM ile özel bir görsel belirteç olan "üretken oylama" aracılığıyla birleştirerek, yetenekli çok modlu nesil için yeni bir modelin müjdesini veriyor. Aynı zamanda, bu makalede önerilen iki aşamalı eğitim yöntemi, açıklama gerektirmeyen temel aşamanın önemini vurgulayarak, veriler kıt olduğunda bile modelin "gelişmesine" olanak tanır. Yöntemin genel aşaması, alana özgü açıklamalar gerektirmemektedir, bu da çözümümüzü mevcut yöntemlerden farklı kılmaktadır. Oluşturulan metin ve görsellerin uyumlu olmasını sağlamak için bu makalenin çift kayıp stratejisi devreye giriyor ve üretken oylama yöntemi ve sınıflandırma yöntemi bu etkiyi daha da artırıyor.
Bu teknikleri temel alan bu çalışma, dönüştürücü bir yaklaşıma işaret ediyor. ViT (Vision Transformer) ve Qformer'ın yanı sıra büyük dil modellerini kullanan araştırma ekibi, çok modlu girdileri üretken oylara dönüştürüyor ve bağlama duyarlı görüntü üretimi elde etmek için bunları yüksek çözünürlüklü Stable Diffusion2.1 ile sorunsuz bir şekilde eşleştiriyor. Bu makale, görüntüleri yardımcı girdi olarak talimat ayarlama yöntemleriyle birleştirerek metin ve görüntü oluşturma kayıplarının kullanılmasına öncülük ederek metin ve görüntü arasındaki sinerjiyi genişletir.
MiniGPT-5, CLIP kısıtlamaları gibi modelleri eşleştirir ve alana özgü ek açıklamalara dayanmadan daha iyi çok modlu sonuçlar elde etmek için difüzyon modelini MiniGPT-4 ile akıllıca entegre eder. En önemlisi, stratejimiz çok modlu görsel dilin temel modellerindeki ilerlemelerden faydalanabilir ve çok modlu üretken yetenekleri geliştirmek için yeni bir plan sağlayabilir.
Aşağıdaki şekilde gösterildiği gibi, MiniGPT5 orijinal çok modlu anlayış ve metin oluşturma yeteneklerine ek olarak makul ve tutarlı çok modlu çıktı da sağlayabilir:
Şimdi çalışmanın detaylarına bir göz atalım.
Yönteme Genel Bakış
Büyük ölçekli dil modellerinin çok modlu üretim yeteneklerine sahip olmasını sağlamak için araştırmacılar, önceden eğitilmiş çok modlu büyük ölçekli dil modellerini ve metinden görüntüye oluşturma modellerini birleştiren yapılandırılmış bir çerçeve tanıttı. Farklı model alanları arasındaki farkları çözmek için, doğrudan orijinal görüntüler üzerinde eğitilebilen "üretken oylar" (üretken oylar) özel görsel semboller eklediler. Ek olarak, üretim kalitesini daha da artırmak için sınıflandırıcı içermeyen bir önyükleme stratejisiyle birleştirilen iki aşamalı bir eğitim yöntemi geliştirildi.
Çok modlu büyük modellerdeki (MiniGPT-4 gibi) son gelişmeler esas olarak görüntüleri sürekli giriş olarak işleyebilen çok modlu anlayışa odaklanmaktadır. İşlevselliğini çok modlu nesile genişletmek amacıyla araştırmacılar, görsel özelliklerin çıktısını almak üzere özel olarak tasarlanmış üretken Voken'leri tanıttı. Buna ek olarak, çok modlu çıktı öğrenimi için geniş bir dil modeli (LLM) çerçevesinde parametre açısından verimli ince ayar tekniklerini de benimsediler.
Çok modlu çıktı üretimi
Üretken belirteçleri üretken modellerle doğru bir şekilde hizalamak için, boyutsallık eşleştirmesi için kompakt bir haritalama modülü formüle ediyoruz ve metin alanı kaybı ve gizli yayılma modeli kaybı dahil olmak üzere çeşitli denetlenen kayıpları dahil ediyoruz. Metin alanı kaybı, modelin belirteçlerin doğru lokalizasyonunu öğrenmesine yardımcı olurken, gizli yayılma kaybı, belirteçleri doğrudan uygun görsel özelliklerle hizalar. Üretken sembollerin özellikleri doğrudan görüntüler tarafından yönlendirildiğinden, bu yöntem kapsamlı görüntü açıklamaları gerektirmemekte ve açıklama gerektirmeden öğrenmeyi mümkün kılmaktadır.
Eğitim Stratejisi
Metin alanı ile görüntü alanı arasında göz ardı edilemez bir alan değişikliği olduğu göz önüne alındığında, araştırmacılar doğrudan sınırlı bir aralıklı metin ve görsel veri kümesi üzerinde eğitimin yanlış hizalamaya ve görüntü kalitesinde bozulmaya yol açabileceğini buldu.
Bu nedenle bu sorunu hafifletmek için iki farklı eğitim stratejisi kullandılar. İlk strateji, yayılma süreci boyunca oluşturulan belirteçlerin etkinliğini artırmak için sınıflandırıcıdan bağımsız önyükleme tekniklerinin kullanılmasını içerir; ikinci strateji iki aşamada ortaya çıkar: kaba özellik hizalamasına odaklanan bir başlangıç öncesi eğitim aşaması ve ardından ince ayar aşaması. karmaşık özellik öğrenimi üzerine.
Deney ve sonuçlar
Modelin etkinliğini değerlendirmek için araştırmacılar, birden fazla kriter üzerinde bir dizi değerlendirme gerçekleştirdi. Deney birkaç temel soruyu ele almayı amaçlıyor:
Modelin performansını farklı eğitim aşamalarında farklı kriterler üzerinde değerlendirmek için MiniGPT-5'in niceliksel analiz örnekleri aşağıdaki Şekil 3'te gösterilmektedir:
VIST Son Adım Değerlendirmesi
İlk deney grubu, tek adımlı değerlendirmeyi, yani son adımdaki modele dayalı olarak karşılık gelen görüntülerin oluşturulmasını içerir ve sonuçlar Tablo 1'de gösterilmektedir.
MiniGPT-5, her üç ayarda da ince ayarlı SD 2'den daha iyi performans gösteriyor. MiniGPT-5 (LoRA) modelinin CLIP puanı, özellikle görselleri ve metni birleştirirken, birçok türde sürekli olarak diğer varyantlardan daha iyi performans gösteriyor. Öte yandan, FID puanı MiniGPT-5 (Önek) modelinin rekabetçiliğini vurgulayarak, görüntü yerleştirme kalitesi (CLIP puanı tarafından yansıtılan) ile görüntü çeşitliliği ve orijinalliği (önek tarafından yansıtılan) arasında bir denge olabileceğini gösterir. FID puanı). Tek modlu kayıt aşamasını içermeyen (UAS'siz MiniGPT-5) doğrudan VIST üzerinde eğitilen bir modelle karşılaştırıldığında, model anlamlı görüntüler oluşturma yeteneğini korusa da görüntü kalitesi ve tutarlılığı önemli ölçüde azalır. Bu gözlem, iki aşamalı bir eğitim stratejisinin önemini vurgulamaktadır.
Daha ayrıntılı ve kapsamlı bir değerlendirmede araştırmacılar, sistematik olarak modele önceki tarihsel bağlamı sağladı ve ardından her adımda ortaya çıkan görselleri ve anlatıları değerlendirdi.
Tablo 2 ve 3, sırasıyla görüntü ve dil ölçümlerinin performansını özetleyerek bu deneylerin sonuçlarını özetlemektedir. Deneysel sonuçlar, MiniGPT-5'in, orijinal modelin çok modlu anlama yeteneklerini etkilemeden, tüm verilerde uzun yatay çok modlu girdileri kullanarak tutarlı, yüksek kaliteli görüntüler oluşturabildiğini göstermektedir. Bu, MiniGPT-5'in farklı ortamlardaki etkinliğini vurgulamaktadır.
Tablo 4'te gösterildiği gibi MiniGPT-5, vakaların %57,18'inde daha uygun metin anlatımları oluşturdu, vakaların %52,06'sında daha iyi görüntü kalitesi sağladı ve sahnelerin %57,62'sinde daha tutarlı çoklu mod durum çıktısı üretti. Dilek kipi olmadan metinden resme anlatımı benimseyen iki aşamalı temel ile karşılaştırıldığında, bu veriler onun daha güçlü çok modlu oluşturma yeteneklerini açıkça göstermektedir.
Sonuçlar Tablo 5'te gösterilmektedir. MiniGPT-5, daha doğru metin yanıtları oluşturmada temel model Divter'dan daha iyi performans gösterir. Oluşturulan görüntüler benzer kalitede olsa da MiniGPT-5, MM korelasyonunda temel modelden daha iyi performans gösteriyor; bu da görüntü oluşturmayı uygun şekilde nasıl konumlandıracağını ve oldukça tutarlı çok modlu yanıtlar üretmeyi daha iyi öğrenebileceğini gösteriyor.