Büyük bayt modellerinde yeni gelişmeler: ince taneli çok modlu ortak anlayış elde etmek için görsel konumlandırmanın ilk tanıtımı, açık kaynak ve oynanabilir demo

Orijinal kaynak: Qubit

Büyük bayt modeli, BuboGPT burada.

Ayrıntılı çok modlu ortak anlayış elde etmek için üç metin, görüntü ve ses modunu destekler.

Nereden cevap verilip ne söyleneceği, ne söylenip ne söylenmediği bir bakışta anlaşılır:

"Akıllı gözlere" sahip olmanın yanı sıra "akıllı kulaklar" da vardır. BuboGPT, insanların fark edemediği ayrıntıları duyabilir:

Audio-1-chime-bird-esinti, kübit, 20 saniye

İleride yüksek enerji!

Üç modlu ortak anlayış, metin açıklaması + görüntü konumlandırma + ses konumlandırma, tek tıklamayla elde etme ve sesin kaynağını doğru bir şekilde belirleme:

Ses-7-dork-bark, kübit, 6 saniye

Endişelenme, henüz bitmedi!

Ses ve görüntü arasında doğrudan bir ilişki olmasa bile, ikisi arasındaki olası ilişki makul bir şekilde tarif edilebilir.Resimlere bakarak ve sesleri tanımlayarak hikayeler anlatmak da mümkündür:

Ses-11-saat altı, qubit, 1 dakika

Bu şekilde bakıldığında, BuboGPT yeterince "iyi" olan bazı işler yapıyor.

Araştırmacılara göre:

MiniGPT-4, LLaVA ve X-LLM gibi son zamanlarda popüler olan çok modlu büyük modeller, girdinin belirli bölümlerine temel bağlantılar yapmaz, yalnızca kaba taneli haritalar oluşturur. BuboGPT, zengin bilgilerden ve metin ile diğer yöntemler arasındaki net yazışmalardan yararlanırken, görsel nesnelerin ve belirli bir yöntemin ayrıntılı bir şekilde anlaşılmasını sağlayabilir.

Bu nedenle, BuboGPT görüntüyü tanımladığında, nesnenin resimdeki belirli konumunu işaret edebilir.

BuboGPT: LLM'ye ilk kez görsel bağlanabilirlik getiriyor

Araştırma ekibi, yazarın YouTube'da paylaştığı yukarıdaki örneklere ek olarak, makalede BuboGPT'nin oynadığı çeşitli hileleri de gösterdi.

Piyano çalan bir kurbağa görmeyeli uzun zaman oldu! Böyle bir grafik BuboGPT de doğru bir şekilde tanımlayabilir mi?

Kangkang birlikte nasıl cevap verdi:

Sadece kurbağanın pozunu doğru bir şekilde tarif etmekle kalmıyor, bunun bir banjo olduğunu da biliyor musunuz?

Resimdeki ilginç yerlerin ne olduğunu sorun ve resmin arka planındaki her şeyi de özetleyebilir.

BuboGPT "Görme + İşitme + İfade Testi", araştırmacılar şöyle çalıyor, önce bu sesi dinleyelim.

Audio-9-saç kurutma makinesi, kübit, 5 saniye

BuboGPT'nin açıklamasına bir göz atalım:

BuboGPT, resimdeki kişinin cinsiyetini, sesin kaynağını ve resimde ne olduğunu doğru bir şekilde anlayabilir.

Etkisi çok iyi çünkü Byte bu kez LLM'ye görsel konumlandırma yöntemini kullandı.

Daha sonra aşağıya baktığımız belirli yöntem.

BuboGPT'nin mimarisi, paylaşılan bir anlamsal alanı öğrenerek ve farklı görsel nesneler ve farklı modaliteler arasındaki ince taneli ilişkileri daha fazla keşfederek çok modlu anlayışa ulaşmaktır.

Araştırmacılar, farklı görsel nesneler ve çeşitli modaliteler arasındaki ayrıntılı ilişkiyi keşfetmek için önce SAM'a dayalı hazır bir görsel yerelleştirme boru hattı oluşturdu.

Bu boru hattı üç modülden oluşur: Etiketleme Modülü (Etiketleme Modülü), Konum Modülü (Topraklama Modülü) ve Varlık Eşleştirme Modülü (Varlık Eşleştirme Modülü).

Süreç kabaca şöyle:

Birincisi, etiketleme modülü, bir giriş görüntüsüyle ilişkilendirilmiş birden çok metin etiketi oluşturabilen, önceden eğitilmiş bir modeldir.

SAM tabanlı yerelleştirme modülü, görüntüdeki her bir metin etiketiyle ilişkili anlamsal maskeyi veya sınırlayıcı kutuyu daha da yerelleştirir.

Ardından, varlık eşleştirme modülü, eşleşen varlıkları etiketlerden ve görüntü açıklamalarından almak için LLM'nin muhakeme yeteneğini kullanır.

Bu, araştırmacıların görsel nesneleri diğer modalitelere bağlamak için dili bir köprü olarak kullanma şeklidir.

Araştırmacılar, üç modun herhangi bir kombinasyonunun girdisinin iyi sonuçlar vermesini sağlamak için Mini-GTP4'e benzer iki aşamalı bir eğitim şeması benimsedi:

Tek modlu ön eğitim ve çok modlu talimat ayarı.

BuboGPT özellikle ses kodlayıcı olarak ImageBind'i, görsel kodlayıcı olarak BLIP-2'yi ve önceden eğitilmiş LLM olarak Vicuna'yı kullanır.

Tek modlu ön eğitim aşamasında, ilgili modalite Q-Former ve lineer projeksiyon katmanları, büyük miktarda modalite-metin eşleştirilmiş verileri üzerinde eğitilir.

Görsel algı için, projeksiyon katmanını sadece resim yazısı oluşturma kısmı için eğitiyoruz ve BLIP2'den Q-Former'ı sabit tutuyoruz.

Sesi anlamak için hem Q-Former hem de sesli altyazı oluşturma parçalarını eğittiler.

Her iki ayarda da, herhangi bir ipucu ( ) kullanmadan, model yalnızca karşılık gelen görüntüyü veya sesi girdi olarak alır ve karşılık gelen başlığı (başlığı) tahmin eder.

** **###### Farklı giriş talimatı örnekleri izleyin

Çok modlu talimat ayarlama aşamasında, aşağıdakiler dahil olmak üzere, doğrusal projeksiyon katmanının ince ayarını yapmak için yüksek kaliteli bir çok modlu talimat veri seti oluşturulur:

  • Görüntü-Metin: MiniGPT-4 ve LLaVa'da iki veri seti kullanılarak görsel talimat ayarı.
  • Ses-Metin: Clotho veri setine dayalı olarak bir dizi anlamlı ve tanımlayıcı veri oluşturulur.
  • Ses-görüntü-metin: VGGSS veri setine dayalı olarak, bir <audio, image, text> üç modlu kılavuz ayarlama veri çifti oluşturulur ve modeli geliştirmek için negatif örnekler daha da eklenir.

Anlamsal eşleştirme için "görüntü-ses çiftleri" negatif örneklerinin tanıtılmasıyla BuboGPT'nin daha iyi hizalanabileceğini ve çok modlu ortak anlama yeteneğinin daha güçlü olduğunu belirtmekte fayda var.

Şu anda BuboGPT kodu ve veri seti açık kaynaklı ve demosu da yayınlandı, hemen deneyelim.

demo yüzeysel oyun deneyimi

BuboGPT demo sayfasının işlev alanı bir bakışta anlaşılır ve işlem de çok basittir.Sağ tarafa resim veya ses, sol tarafa BuboGPT cevap penceresi ve kullanıcı soru penceresi yükleyebilirsiniz:

Fotoğrafı yükledikten sonra, bölünmüş görüntüyü yüklemek için aşağıdaki ilk düğmeyi tıklayın:

Örnek olarak Çin Seddi'nin bir fotoğrafını çekin, BuboGPT onu şu şekilde parçalara ayırdı ve dağları, turistik yerleri ve şehir surlarını belirledi:

Ondan bu resmi tanımlamasını istediğimizde, cevabı daha spesifik ve temelde doğruydu:

Yanıtın metin içeriğine karşılık gelen bölme kutusundaki içeriğin de değiştiğini görebilirsiniz.

İşte bir parça ses içeren başka bir resim ve BuboGPT ayrıca ses kaynağıyla doğru bir şekilde eşleşiyor:

Ses-8-bisiklet_bell, kübit, 22 saniye

Elbette o da tanımayıp yanlış ifade edemeyecektir.Örneğin aşağıdaki resimde kimse yok ve ses sadece bir zil ama açıklaması resimle uyuşmuyor gibi.

İlgilenen aile üyeleri acele edin ve kendiniz deneyin~~

Portal: [1] [2]

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)