Bulan lalu, ChatGPT secara resmi meluncurkan kemampuan pengenalan gambar dan ucapan.
Awal bulan ini, Microsoft merilis versi multimodal 166 halaman dari dokumen terkait GPT-4V, yang merinci fungsi dan penggunaan GPT-4V, yang menarik perhatian luas di industri.
Namun, Google tidak mau kalah dalam perlombaan untuk model bahasa visual. **
Baru-baru ini, Google Research, Google DeepMind, dan Google Cloud bersama-sama meluncurkan model bahasa visual (VLM) yang lebih kecil, lebih cepat, dan lebih kuat, PaLI-3, yang secara signifikan bersaing dengan model serupa yang 10 kali lebih besar.
Para peneliti membandingkan model transformator visual (ViT) yang dilatih sebelumnya menggunakan target kategoris dengan model pra-terlatih kontras (SigLIP) dan menemukan bahwa sementara PaLI-3 berkinerja sedikit buruk pada tolok ukur klasifikasi gambar standar, PaLI berbasis SigLIP menunjukkan kinerja yang sangat baik dalam berbagai tolok ukur multimodal, terutama dalam lokalisasi dan pemahaman teks.
Makalah penelitian, berjudul "* PaLI-3 Vision Language Models: Smaller, Faster, Stronger *," telah diterbitkan di situs web pracetak arXiv.
Tim peneliti percaya bahwa PaLI-3 dengan hanya 5 miliar parameter telah menghidupkan kembali penelitian tentang komponen inti VLM yang kompleks, berpotensi mendorong pengembangan generasi baru model yang lebih besar.
Pembelajaran multimodal resolusi lebih tinggi
Baru-baru ini, model bahasa visual besar telah menggunakan encoder gambar pra-terlatih dalam model mereka yang lebih besar, beberapa di antaranya pra-terlatih menggunakan klasifikasi yang diawasi (misalnya PaLI, PaLI-X, Flamingo, PaLM-E), beberapa menggunakan encoder CLIP pra-terlatih (misalnya BLIPv2, CrossTVR, ChatBridge), dan beberapa menggunakan pra-pelatihan multimodal khusus (misalnya BEiT3, CoCa, SimVLM).
**Metode pelatihan untuk penelitian ini terdiri dari tiga komponen utama: pra-pelatihan kontras encoder gambar pada data teks gambar skala jaringan, peningkatan pencampuran data pelatihan multimodal PaLI, dan pelatihan pada resolusi yang lebih tinggi. **
Pada tahap pra-pelatihan modal tunggal, encoder gambar menggunakan protokol pelatihan SigLIP untuk pra-pelatihan komparatif pada pasangan teks gambar di web. Para peneliti menggunakan metode penyaringan berbasis model yang mempertahankan sekitar 40 persen dari pasangan. Encoder gambar dilatih pada resolusi 224×224. Text encoder-decoder adalah model 3B UL2 yang dilatih pada program denoising hybrid.
Pada fase pelatihan multimodal, para peneliti menggabungkan encoder gambar dengan encoder teks untuk membentuk model PaLI. Model ini dilatih untuk tugas multimodal, menjaga encoder gambar tetap beku, menggunakan resolusi asli (224×224).
Bauran data utama berasal dari himpunan data WebLI, disaring dan digunakan dengan target pelatihan tertentu. Elemen lainnya termasuk teks multibahasa, pemrosesan OCR, VQA dan VQG lintas bahasa, VQA sadar objek, dan deteksi objek. Meskipun tidak termasuk tugas atau data dari video, PaLI-3 masih kompetitif pada tolok ukur ini berkat encoder gambarnya yang kuat. Selain itu, pemahaman dokumen dan gambar lebih ditingkatkan dengan menambahkan dokumen PDF yang berisi teks padat dan gambar web, seperti poster atau dokumen, serta teks dalam lebih dari 100 bahasa, ke WebLI.
Selama fase peningkatan resolusi, resolusi PaLI-3 dipelajari dengan menyempurnakan seluruh model (mencairkan encoder gambar) dan menggunakan pelajaran singkat yang secara bertahap meningkatkan resolusi, mempertahankan pos pemeriksaan pada resolusi 812×812 dan 1064×1064. Pencampuran data terutama difokuskan pada bagian-bagian yang melibatkan posisi visual teks dan deteksi objek.
** Tingkatkan Pemahaman Gambar dan Tugas Pemosisian Teks **
Pertama, para peneliti melakukan perbandingan terkontrol dari model ViT yang berbeda dalam kerangka PaLI. Ditemukan bahwa, meskipun model SigLIP memiliki kinerja yang buruk dalam klasifikasi linier sampel kecil, ketika digunakan dalam PaLI-3, model SigLIP memberikan peningkatan kinerja sederhana pada tugas-tugas "sederhana" seperti pemberian teks dan jawaban pertanyaan, dan peningkatan besar pada teks adegan yang lebih "kompleks" dan tugas pemahaman spasial seperti varian TextVQA dan RefCOCO. **
PaLI-3 kemudian dievaluasi dalam tugas pemahaman teks yang diposisikan secara visual, dengan gambar dalam kumpulan data mulai dari gambar alami, ilustrasi, dokumen, dan antarmuka pengguna. **PaLI-3 mencapai kinerja canggih pada sebagian besar tolok ukur subtitle dan VQA, dengan atau tanpa input OCR eksternal. Satu-satunya pengecualian adalah AI2D dan ChartQA, yang tidak hanya membutuhkan pemahaman, tetapi juga penalaran yang kuat tentang grafik. Untuk kedua tolok ukur, PaLI-3 tertinggal sedikit di belakang PaLI-X.
Selain itu, para peneliti memperluas kemampuan PaLI-3 untuk memprediksi topeng segmentasi dengan output seperti bahasa. Hasil eksperimen menunjukkan bahwa untuk jenis tugas lokalisasi ini, pra-pelatihan komparatif lebih efektif daripada pra-pelatihan klasifikasi. **Model PaLI-3 lengkap sedikit lebih unggul daripada metode canggih dalam hal representasi jari. **
Di bagian Natural Image Understanding, PaLI-3 dievaluasi pada tugas-tugas pemahaman bahasa visual umum, termasuk COCO captioning dan VQAv2, ** meskipun skalanya jauh lebih kecil dibandingkan dengan model SOTA terbaru, PaLI-3 berkinerja sangat baik pada tolok ukur ini. **
Di bagian teks video dan Tanya Jawab, para peneliti menyempurnakan dan mengevaluasi model PaLI-3 pada 4 tolok ukur teks video: MSR-VTT, VATEX, ActivityNet Captions, dan Spoken Moments in Time. Tes yang sama kemudian dilakukan pada 3 tolok ukur jawaban pertanyaan video: NExT-QA, MSR-VTT-QA, dan ActivityNet-QA. **Meskipun tidak melakukan pra-pelatihan dengan data video, PaLI-3 mencapai hasil jaminan kualitas video yang sangat baik pada ukuran model yang lebih kecil. **
Secara keseluruhan, dalam penelitian ini, para peneliti menyelidiki pra-pelatihan encoder gambar di VLM, khususnya model tipe PaLI. Untuk pertama kalinya, dua metode pra-pelatihan klasifikasi dan pra-pelatihan teks gambar (kontras) jelas dibandingkan dan menemukan bahwa yang terakhir mengarah ke VLM yang lebih baik dan lebih efisien, terutama dalam tugas lokalisasi dan pemahaman teks.
Selain itu, para peneliti mencatat dalam makalah: "Ini hanya satu aspek kecil dari VLM, dan kami berharap bahwa penelitian ini dan hasilnya akan menginspirasi eksplorasi yang lebih dalam dari banyak aspek lain dari pelatihan VLM." "
Tautan Kertas:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Wajah GPT-4V! Model bahasa visual PaLI-3 Google keluar, lebih kecil, lebih cepat, dan lebih kuat
Sumber: Academic Headlines
Bulan lalu, ChatGPT secara resmi meluncurkan kemampuan pengenalan gambar dan ucapan.
Awal bulan ini, Microsoft merilis versi multimodal 166 halaman dari dokumen terkait GPT-4V, yang merinci fungsi dan penggunaan GPT-4V, yang menarik perhatian luas di industri.
Baru-baru ini, Google Research, Google DeepMind, dan Google Cloud bersama-sama meluncurkan model bahasa visual (VLM) yang lebih kecil, lebih cepat, dan lebih kuat, PaLI-3, yang secara signifikan bersaing dengan model serupa yang 10 kali lebih besar.
Para peneliti membandingkan model transformator visual (ViT) yang dilatih sebelumnya menggunakan target kategoris dengan model pra-terlatih kontras (SigLIP) dan menemukan bahwa sementara PaLI-3 berkinerja sedikit buruk pada tolok ukur klasifikasi gambar standar, PaLI berbasis SigLIP menunjukkan kinerja yang sangat baik dalam berbagai tolok ukur multimodal, terutama dalam lokalisasi dan pemahaman teks.
Makalah penelitian, berjudul "* PaLI-3 Vision Language Models: Smaller, Faster, Stronger *," telah diterbitkan di situs web pracetak arXiv.
Pembelajaran multimodal resolusi lebih tinggi
Baru-baru ini, model bahasa visual besar telah menggunakan encoder gambar pra-terlatih dalam model mereka yang lebih besar, beberapa di antaranya pra-terlatih menggunakan klasifikasi yang diawasi (misalnya PaLI, PaLI-X, Flamingo, PaLM-E), beberapa menggunakan encoder CLIP pra-terlatih (misalnya BLIPv2, CrossTVR, ChatBridge), dan beberapa menggunakan pra-pelatihan multimodal khusus (misalnya BEiT3, CoCa, SimVLM).
**Metode pelatihan untuk penelitian ini terdiri dari tiga komponen utama: pra-pelatihan kontras encoder gambar pada data teks gambar skala jaringan, peningkatan pencampuran data pelatihan multimodal PaLI, dan pelatihan pada resolusi yang lebih tinggi. **
Pada tahap pra-pelatihan modal tunggal, encoder gambar menggunakan protokol pelatihan SigLIP untuk pra-pelatihan komparatif pada pasangan teks gambar di web. Para peneliti menggunakan metode penyaringan berbasis model yang mempertahankan sekitar 40 persen dari pasangan. Encoder gambar dilatih pada resolusi 224×224. Text encoder-decoder adalah model 3B UL2 yang dilatih pada program denoising hybrid.
Pada fase pelatihan multimodal, para peneliti menggabungkan encoder gambar dengan encoder teks untuk membentuk model PaLI. Model ini dilatih untuk tugas multimodal, menjaga encoder gambar tetap beku, menggunakan resolusi asli (224×224).
Selama fase peningkatan resolusi, resolusi PaLI-3 dipelajari dengan menyempurnakan seluruh model (mencairkan encoder gambar) dan menggunakan pelajaran singkat yang secara bertahap meningkatkan resolusi, mempertahankan pos pemeriksaan pada resolusi 812×812 dan 1064×1064. Pencampuran data terutama difokuskan pada bagian-bagian yang melibatkan posisi visual teks dan deteksi objek.
** Tingkatkan Pemahaman Gambar dan Tugas Pemosisian Teks **
Pertama, para peneliti melakukan perbandingan terkontrol dari model ViT yang berbeda dalam kerangka PaLI. Ditemukan bahwa, meskipun model SigLIP memiliki kinerja yang buruk dalam klasifikasi linier sampel kecil, ketika digunakan dalam PaLI-3, model SigLIP memberikan peningkatan kinerja sederhana pada tugas-tugas "sederhana" seperti pemberian teks dan jawaban pertanyaan, dan peningkatan besar pada teks adegan yang lebih "kompleks" dan tugas pemahaman spasial seperti varian TextVQA dan RefCOCO. **
Selain itu, para peneliti memperluas kemampuan PaLI-3 untuk memprediksi topeng segmentasi dengan output seperti bahasa. Hasil eksperimen menunjukkan bahwa untuk jenis tugas lokalisasi ini, pra-pelatihan komparatif lebih efektif daripada pra-pelatihan klasifikasi. **Model PaLI-3 lengkap sedikit lebih unggul daripada metode canggih dalam hal representasi jari. **
Di bagian Natural Image Understanding, PaLI-3 dievaluasi pada tugas-tugas pemahaman bahasa visual umum, termasuk COCO captioning dan VQAv2, ** meskipun skalanya jauh lebih kecil dibandingkan dengan model SOTA terbaru, PaLI-3 berkinerja sangat baik pada tolok ukur ini. **
Secara keseluruhan, dalam penelitian ini, para peneliti menyelidiki pra-pelatihan encoder gambar di VLM, khususnya model tipe PaLI. Untuk pertama kalinya, dua metode pra-pelatihan klasifikasi dan pra-pelatihan teks gambar (kontras) jelas dibandingkan dan menemukan bahwa yang terakhir mengarah ke VLM yang lebih baik dan lebih efisien, terutama dalam tugas lokalisasi dan pemahaman teks.
Selain itu, para peneliti mencatat dalam makalah: "Ini hanya satu aspek kecil dari VLM, dan kami berharap bahwa penelitian ini dan hasilnya akan menginspirasi eksplorasi yang lebih dalam dari banyak aspek lain dari pelatihan VLM." "
Tautan Kertas: