Perkembangan baru dalam model byte besar: pengenalan pertama pemosisian visual untuk mencapai pemahaman gabungan multi-modal yang halus, sumber terbuka & demo yang dapat dimainkan

Sumber asli: Qubit

Model byte besar, BuboGPT ada di sini.

Mendukung tiga mode teks, gambar, dan audio untuk mencapai pemahaman bersama multi-modal yang halus.

Di mana harus menjawab dan apa yang harus dikatakan, apa yang dikatakan dan apa yang tidak dikatakan, sekilas terlihat jelas:

Selain memiliki "mata yang cerdas", ada juga "telinga yang cerdas". BuboGPT dapat mendengar detail yang tidak dapat dilihat manusia:

Audio-1-chime-bird-breeze, qubit, 20 detik

Energi tinggi ke depan!

Pemahaman gabungan tiga modal, deskripsi teks + posisi gambar + posisi suara, satu klik untuk mendapatkannya, dan secara akurat menentukan sumber suara:

Audio-7-dork-bark, qubit, 6 detik

Jangan khawatir, ini belum berakhir!

Sekalipun tidak ada hubungan langsung antara audio dan gambar, kemungkinan hubungan antara keduanya dapat dijelaskan secara wajar.Bercerita juga dimungkinkan dengan melihat gambar dan mengidentifikasi suara:

Audio-jam 11-enam, qubit, 1 menit

Melihatnya seperti ini, BuboGPT melakukan beberapa pekerjaan, yang cukup "baik".

Menurut para peneliti:

Model besar multi-modal yang baru-baru ini populer seperti MiniGPT-4, LLaVA, dan X-LLM tidak membuat koneksi dasar ke bagian input tertentu, tetapi hanya membuat peta berbutir kasar. Meskipun BuboGPT memanfaatkan kekayaan informasi dan korespondensi yang jelas antara teks dan modalitas lainnya, BuboGPT dapat memberikan pemahaman mendetail tentang objek visual dan modalitas tertentu.

Oleh karena itu, saat BuboGPT mendeskripsikan gambar, BuboGPT dapat menunjukkan lokasi spesifik objek di dalam gambar.

BuboGPT: Memperkenalkan konektivitas visual ke LLM untuk pertama kalinya

Selain contoh di atas yang dibagikan penulis di YouTube, tim peneliti juga mendemonstrasikan berbagai trik yang dimainkan BuboGPT di koran.

Lama sekali melihat katak bermain piano! Bisakah grafik seperti itu BuboGPT juga menggambarkan secara akurat?

Bagaimana Kangkang menjawab bersama:

Anda tidak hanya dapat mendeskripsikan pose katak secara akurat, tetapi Anda juga tahu bahwa itu adalah banjo?

Tanyakan saja tempat-tempat menarik apa saja yang ada di gambar tersebut, dan bisa juga dengan merangkum semua yang ada di latar belakang gambar tersebut.

BuboGPT "penglihatan + pendengaran + tes ekspresif", para peneliti memainkannya seperti ini, mari kita dengarkan audio ini dulu.

Audio-9-pengering rambut, qubit, 5 detik

Mari kita lihat deskripsi BuboGPT:

BuboGPT dapat secara akurat memahami jenis kelamin orang di dalam gambar, sumber suara, dan apa yang terjadi di dalam gambar.

Efeknya sangat bagus karena Byte kali ini menggunakan metode pengenalan pemosisian visual ke dalam LLM.

Metode khusus kami kemudian melihat ke bawah.

Arsitektur BuboGPT adalah untuk mencapai pemahaman multimodal dengan mempelajari ruang semantik bersama dan mengeksplorasi lebih lanjut hubungan halus antara objek visual yang berbeda dan modalitas yang berbeda.

Untuk mengeksplorasi hubungan halus antara objek visual yang berbeda dan berbagai modalitas, para peneliti pertama-tama membangun pipa lokalisasi visual siap pakai berdasarkan SAM.

Pipeline ini terdiri dari tiga modul: Tagging Module (Tagging Module), Location Module (Grounding Module), dan Entity-matching Module (Entity-matching Module).

Prosesnya kira-kira seperti ini:

Pertama, modul pelabelan adalah model terlatih yang dapat menghasilkan banyak label teks yang terkait dengan gambar input.

Modul pelokalan berbasis SAM selanjutnya melokalkan topeng semantik atau kotak pembatas yang terkait dengan setiap label teks pada gambar.

Kemudian, modul pencocokan entitas menggunakan kemampuan penalaran LLM untuk mengambil entitas yang cocok dari label dan deskripsi gambar.

Inilah cara peneliti menggunakan bahasa sebagai jembatan untuk menghubungkan objek visual dengan modalitas lain.

Agar masukan dari setiap kombinasi dari tiga mode memiliki hasil yang baik, para peneliti mengadopsi skema pelatihan dua tahap yang mirip dengan Mini-GTP4:

Pelatihan pra-modal tunggal dan penyesuaian instruksi multi-modal.

Secara khusus, BuboGPT menggunakan ImageBind sebagai pembuat enkode audio, BLIP-2 sebagai pembuat enkode visual, dan Vicuna sebagai LLM terlatih.

Pada tahap pra-pelatihan unimodal, modalitas Q-Former yang sesuai dan lapisan proyeksi linier dilatih pada sejumlah besar data berpasangan modalitas-teks.

Untuk persepsi visual, kami hanya melatih lapisan proyeksi untuk bagian pembuatan keterangan gambar dan mempertahankan Q-Former dari BLIP2 tetap.

Untuk pemahaman audio, mereka melatih Q-Former dan bagian pembuatan teks audio.

Di kedua pengaturan tanpa menggunakan petunjuk apa pun ( ), model hanya menerima gambar atau audio yang sesuai sebagai masukan dan memprediksi teks (teks) yang sesuai.

** **###### Instruksi input yang berbeda mengikuti contoh

Pada tahap penyesuaian instruksi multimodal, dataset instruksi multimodal berkualitas tinggi dibangun untuk menyempurnakan lapisan proyeksi linier, termasuk:

  • Gambar-Teks: Penyetelan instruksi visual menggunakan dua kumpulan data di MiniGPT-4 dan LLaVa.
  • Audio-Teks: Serangkaian data ekspresif dan deskriptif dibangun berdasarkan dataset Clotho.
  • Audio-gambar-teks: Berdasarkan dataset VGGSS, pasangan data penyetelan panduan tiga modal <audio, gambar, teks> dibangun, dan sampel negatif diperkenalkan lebih lanjut untuk menyempurnakan model.

Perlu dicatat bahwa dengan memperkenalkan sampel negatif "pasangan gambar-audio" untuk pencocokan semantik, BuboGPT dapat diselaraskan dengan lebih baik, dan kemampuan pemahaman gabungan multimodal menjadi lebih kuat.

Saat ini kode dan kumpulan data BuboGPT sudah open source, dan demonya juga sudah dirilis, yuk segera dicoba.

demo pengalaman bermain dangkal

Area fungsi halaman demo BuboGPT sekilas jelas, dan pengoperasiannya juga sangat sederhana. Anda dapat mengunggah gambar atau audio di sisi kanan, dan jendela jawaban BuboGPT dan jendela pertanyaan pengguna di sisi kiri:

Setelah mengunggah foto, klik tombol pertama di bawah untuk mengunggah gambar terpisah:

Ambil foto Tembok Besar sebagai contoh, BuboGPT membongkarnya seperti ini, dan mengidentifikasi gunung, tempat wisata, dan tembok kota:

Ketika kami memintanya untuk mendeskripsikan gambar ini, jawabannya lebih spesifik dan pada dasarnya akurat:

Anda dapat melihat bahwa konten pada kotak terpisah juga telah berubah, sesuai dengan konten teks jawaban.

Ini gambar lain, dengan sepotong audio, dan BuboGPT juga cocok dengan sumber suara:

Audio-8-bicycle_bell, qubit, 22 detik

Tentu saja, itu juga akan gagal mengenali dan mengekspresikan secara tidak benar, misalnya tidak ada orang pada gambar di bawah ini, dan audionya hanya lonceng, tetapi deskripsinya sepertinya tidak sesuai dengan gambarnya.

Anggota keluarga yang tertarik bergegas dan mencobanya sendiri ~~

Pintu gerbang: [1] [2]

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)