Model bahasa visual Google PaLI-3 keluar, dengan parameter hanya 5B, lebih kecil, lebih cepat, dan lebih kuat

Di bidang model besar multimodal (bahasa visual), sementara parameter bersaing untuk memenangkan kinerja, mengejar parameter yang lebih kecil, kecepatan lebih cepat, dan kinerja yang lebih kuat adalah jalur penelitian lain.

Sumber gambar: Dihasilkan oleh Unbounded AI

Di era model besar, parameter model bahasa visual (VLM) telah berkembang hingga puluhan bahkan ratusan miliar, membuat kinerja terus meningkat. Pada saat yang sama, model yang lebih kecil masih penting, mereka lebih mudah dilatih dan dilayani, lebih ramah lingkungan, dan menyediakan siklus penelitian yang lebih cepat untuk desain model.

Di bidang ini, Google Research meluncurkan model yang disebut PaLI (Pathways Language and Image) tahun lalu. Sebagai model besar multimodal, salah satu struktur kunci PaLI adalah menggunakan kembali tulang punggung modal tunggal besar untuk pemodelan bahasa dan visual, menggunakan kembali mT5-XXL dengan parameter 13B dalam hal bahasa, dan ViT-G dengan parameter 2B dan ViT-e dengan parameter 4B dalam hal penglihatan. Pada saat itu, PaLI mencapai kinerja yang lebih baik daripada kebanyakan model lama dan baru.

Google sejak itu terus fokus pada pemodelan skala kecil, dan baru-baru ini mengusulkan PaLI-3, model generasi ketiga dari seri PaLI. Dengan model dasar pra-terlatih dengan hanya parameter 5B, mereka mengoptimalkan metode pelatihan dan mencapai hasil SOTA yang kompetitif dan baru pada beberapa tolok ukur VLM.

Metode ini terdiri dari tiga bagian utama, yaitu pra-pelatihan komparatif encoder gambar pada data teks gambar skala web, dataset hybrid yang ditingkatkan untuk pelatihan multimodal PaLI, dan pelatihan resolusi yang lebih tinggi.

*Penulis berasal dari Google Research, Google DeepMind, dan Google Cloud. *

Alamat kertas:

Gambar di bawah ini menunjukkan ikhtisar model 5B PaLI-3, di mana gambar secara individual dikodekan menjadi token visual dengan membandingkan model visi SigLIP 2B yang telah dilatih sebelumnya. Kemudian, bersama dengan kueri, token visual ini diteruskan ke UL2 Transformer dari struktur encoder-decoder 3B, yang menghasilkan jawaban yang diharapkan. Dalam pengaturan ini, dibandingkan dengan model PaLI sebelumnya dari model pra-terlatih klasifikasi tunggal, model pra-terlatih memberikan token yang jauh lebih berguna.

Seberapa efektif itu? PaLI-3 mengimplementasikan SOTA baru pada tugas-tugas yang memerlukan pemahaman teks yang diposisikan secara visual dan pemosisian target, termasuk 8 tugas pemahaman teks yang diposisikan secara visual dan tugas segmentasi ekspresi referensi pada himpunan data RefCOCO. PaLI-3 juga unggul dalam berbagai tugas penglihatan rahasia.

Selain itu, para peneliti juga melakukan eksperimen ablasi untuk membandingkan dengan klasifikasi model dasar ViT yang telah dilatih sebelumnya, dan selanjutnya mengkonfirmasi kelayakan encoder visual yang telah dilatih sebelumnya pada data teks gambar skala web yang bising, sehingga menjadi alternatif yang lebih disukai untuk pelatihan pada data rahasia.

Selain model 5B PaLI-3, para peneliti juga menggunakan metode SigLIP yang baru-baru ini diusulkan untuk membangun model penglihatan kontras multibahasa SOTA dengan parameter diperluas ke 2B.

Pengenalan Model

Arsitektur

Pada tingkat yang lebih tinggi, arsitektur PaLI-3 mengikuti Chen et al. (2023b; a): Model ViT mengkodekan gambar sebagai token dan diteruskan ke transformator struktur encoder-decoder bersama dengan input teks seperti pertanyaan, petunjuk, dan instruksi, menghasilkan output teks.

Mari kita mulai dengan komponen visual. Para peneliti menggunakan metode pelatihan SigLIP untuk menginisialisasi tulang punggung visual PaLI-3 dari model perbandingan ViT-G / 14 yang telah dilatih sebelumnya (parameternya sekitar 2B). Singkatnya, mereka melatih model ViT-G / 14 untuk embedding gambar dan model transformator embedding teks untuk menanamkan gambar dan teks, masing-masing, sehingga pengklasifikasi biner dengan sigmoid cross-entropy menggunakan gambar dan teks embedding dot product dapat secara akurat mengklasifikasikan apakah gambar dan teks masing-masing sesuai satu sama lain.

INI MIRIP DENGAN CLIP DAN ALIGN, TETAPI LEBIH EFISIEN, TERUKUR, DAN KUAT. Pada saat yang sama, metode ini adalah untuk melatih komponen penyematan gambar ViT, jadi ketika ViT dimasukkan ke dalam PaLI, transformator penyematan teks dibuang.

Mari kita lihat model PaLI lengkap. Output encoder gambar ViT membentuk token visual sebelum dikumpulkan dan dipetakan secara linier dan ditambahkan ke token teks input yang disematkan. Token ini kemudian diteruskan ke model encoder-decoder 3B UL2 yang telah dilatih sebelumnya untuk menghasilkan output teks. Input teks untuk model biasanya berisi petunjuk yang menggambarkan jenis tugas dan menyandikan input teks yang diperlukan untuk tugas tersebut.

Pelatihan

Proses pelatihan terdiri dari beberapa tahap.

Tahap 0: Prapelatihan unimodal. Menurut protokol pelatihan SigLIP, encoder gambar memiliki resolusi pelatihan 224×224; Text encoder-decoder adalah model 3B UL2 yang dilatih mengikuti prosedur pengurangan kebisingan hibrida yang dijelaskan oleh Tay et al.

Tahap 1: Pelatihan multimodal. Model PaLI gabungan dilatih pada tugas dan data multimodal dengan menggabungkan encoder gambar dengan encoder teks, di mana titik encoder gambar tetap beku pada resolusi 224×224. Dengan penyaringan heuristik kualitas teks dan menggunakan target pelatihan SplitCap, komponen pencampuran utama sekali lagi diturunkan dari dataset WebLI.

Tahap 2: Kelas atas. Input resolusi tinggi adalah cara yang diterima secara luas untuk meningkatkan kinerja, baik karena lebih banyak detail dalam gambar dapat dirasakan dan karena model ditingkatkan dengan meningkatkan panjang urutan. Artikel ini meningkatkan resolusi PaLI-3 dengan mencairkan encoder gambar, menjaga pos pemeriksaan pada resolusi 812×812 dan 1064×1064.

Migrasi tugas. Akhirnya, untuk setiap tugas individu (tolok ukur), makalah ini menyempurnakan model PaLI-3 pada data pelatihan tugas menggunakan encoder gambar ViT beku; Untuk sebagian besar tugas, artikel ini menyempurnakan pos pemeriksaan resolusi 812×812, tetapi untuk kedua tugas pemahaman dokumen, artikel ini meningkatkan resolusi ke 1064×1064.

Eksperimen dan Hasil

Percobaan pertama membandingkan hasil model ViT yang berbeda di bawah kerangka PaLI, dan para peneliti mempertimbangkan dua model ViT: Classif dan SigLIP.

Hasilnya, ditunjukkan pada Tabel 1, menunjukkan bahwa sementara model SigLIP tertinggal dalam klasifikasi linier sampel kecil, dengan menggunakan PaLI-3, model SigLIP memberikan keuntungan sederhana pada tugas-tugas sederhana seperti pemberian teks dan jawaban pertanyaan, dan keuntungan besar pada skenario yang lebih kompleks, yaitu teks dan tugas pemahaman spasial.

Selain itu, para peneliti mengevaluasi PaLI-3 pada dataset TextCaps, TextVQA, STVQA, OCRVQA, InfographicVQA, DocVQA, ChartQA, Scree2Words, WidgetCap. Hasilnya ditunjukkan pada Tabel 2, di mana PaLI-3 hanya 0,7 poin lebih rendah dari metode SOTA ketika menggunakan sistem OCR eksternal. Namun, dengan tidak adanya sistem eksternal seperti itu, PaLI-3 adalah 4, 4 poin lebih tinggi daripada kombinasi semua metode SOTA. Untuk TextCaps, TextVQA, InfographicVQA, dan DocVQA, PaLI-3 memiliki keunggulan 8 poin atau lebih.

** Segmentasi ekspresi referensi **

Para peneliti memperluas PaLI-3 untuk memprediksi topeng segmentasi dengan output seperti bahasa. Untuk melakukan ini, mereka menggunakan Ning et al. (2023) Vectorized Variational Autoencoder (VQ-VAE). VQ-VAE dilatih untuk mempelajari 128 token mask, dan encodernya dapat menandai mask segmentasi 64 × 64 piksel sebagai 16 token mask, yang dapat dikonversi kembali oleh decoder.

Para peneliti melatih PaLI-3 untuk memprediksi topeng segmentasi tunggal, pertama mengeluarkan 4 koordinat sebagai teks dan mewakili mereka sebagai kotak pembatas. Ini diikuti oleh 16 token masker, yang mewakili mask di dalam kotak pembatas.

Tabel 1 menunjukkan bahwa prapelatihan kontras lebih efektif daripada prapelatihan klasifikasi untuk tugas penargetan tersebut. Tabel 3 di bawah ini menunjukkan bahwa model PaLI-3 lengkap sedikit lebih unggul daripada prior art dalam hal segmentasi ekspresi referensi.

Pemahaman Gambar

Selanjutnya, para peneliti mengevaluasi PaLI-3 pada tugas pemahaman bahasa visual umum. Seperti pekerjaan mereka sebelumnya, mereka tidak menggunakan modul OCR eksternal karena tolok ukur ini jarang melibatkan teks dalam gambar.

Hasilnya menunjukkan bahwa PaLI-3 jauh lebih kecil ukurannya dibandingkan dengan model SOTA terbaru, tetapi menunjukkan kinerja yang sangat kuat dalam tolok ukur ini. Untuk COCO, PaLI-3 lebih unggul dari semua model kecuali BEiT-3 dan 17B dan 55B PaLI. Pada VQAv2 dan TallyQA, PaLI-3 melampaui semua model sebelumnya kecuali PaLI-X. Untuk misi OKVQA, PaLI-3 hanya tertinggal di belakang PaLM-E (562B) dan PaLI-X (55B), tetapi masih mengungguli model Flamingo (80B) 32-shot.

Subtitle video dan Tanya Jawab

Studi ini menyempurnakan dan mengevaluasi model PaLI-3 pada 4 tolok ukur teks video: MSR-VTT, VATEX, ActivityNet Captions, dan Spoken Moments in Time. Selain itu, penelitian ini melakukan hal yang sama pada 3 tolok ukur jawaban pertanyaan video: NExT-QA, MSR-VTT-QA, dan ActivityNet-QA.

Meskipun tidak menggunakan data video untuk pra-pelatihan, PaLI-3 mencapai hasil QA video yang sangat baik dengan ukuran model kecil: kinerja canggih pada MSR-VTT-QA dan ActivityNet-QA, dan hasil kompetitif pada NextQA. Perbaikan berkelanjutan dalam QA gambar dan video menyoroti manfaat mengadopsi ViT komparatif.

Selain itu, PaLI-3 mencapai hasil subtitle video yang sangat baik, rata-rata hanya 3 poin CIDEr di bawah hasil SOTA. Mempertimbangkan ukuran model, PaLI-3 tampaknya menjadi pilihan yang sangat baik baik dari segi kinerja dan kepraktisan.

** Evaluasi Encoder Gambar Langsung **

Para peneliti juga mengevaluasi model ViT-G, yang dapat dipahami sebagai bukan PaLI-3 lengkap, seperti yang ditunjukkan pada Tabel 6.

Pertama, penelitian ini menguji kemampuan klasifikasi gambar menggunakan benchmark ImageNet standar dan dua varian paling populer. Hasilnya menunjukkan bahwa SigLIP tertinggal sedikit di belakang dalam akurasi top-1 dan v2, tetapi hasil yang sebanding di ReaL.

Kedua, studi ini melaporkan hasil model yang berbeda pada tolok ukur Crossmodal-3600. Hasilnya menunjukkan bahwa model SigLIP ViT-G secara signifikan lebih baik daripada model ViT-e yang lebih besar.

Akhirnya, penelitian ini juga melaporkan hasil penyelidikan linier, yang menunjukkan bahwa SigLIP lebih rendah daripada model lain.

Tabel 7 dan 8 menilai keadilan, bias, dan potensi masalah lainnya dengan model.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)