Tambahkan "penanda" ke isyarat visual, Microsoft dan lainnya membuat GPT-4V lebih akurat dan lebih rinci

metode isyarat visual baru SoM (Set-of-Mark), yang telah meningkatkan pemahaman konten visual OpenAI multimodal model besar GPT-4V.

Sumber asli: Heart of the Machine

Sumber gambar: Dihasilkan oleh Unbounded AI

Baru-baru ini, kami telah menyaksikan kemajuan signifikan dalam model bahasa besar (LLM). Secara khusus, rilis transformer pra-terlatih generatif, atau GPT, telah menyebabkan beberapa terobosan dalam industri dan akademisi. Sejak rilis GPT-4, model multimodal besar (LMM) telah menarik minat yang meningkat dalam komunitas penelitian, dengan banyak pekerjaan yang ditujukan untuk membangun GPT-4 multimodal.

Baru-baru ini, GPT-4V (ision) telah mendapat perhatian khusus karena persepsi multimodal dan kemampuan penalarannya yang sangat baik. Namun, terlepas dari kemampuan pemahaman bahasa visual GPT-4V yang belum pernah terjadi sebelumnya, landasan visualnya yang halus (input adalah gambar dan deskripsi objek yang sesuai, output adalah kotak yang menggambarkan suatu objek) relatif lemah, atau belum dikembangkan.

Misalnya, ketika pengguna bertanya "Objek apa yang diletakkan di sisi kiri laptop di sebelah kanan?" pada gambar di bawah ini. GPT-4V memberikan jawaban yang salah untuk mug. Pengguna kemudian bertanya, "Saya ingin mencari tempat duduk dekat jendela, di mana saya bisa duduk?" GPT-4V juga menjawab salah.

Setelah menyadari masalah di atas, para peneliti dari Microsoft, Universitas Sains dan Teknologi Hong Kong dan lembaga lainnya mengusulkan metode visi baru Set-of-Mark (SoM) untuk memecahkan masalah GPT-4V dalam tugas penglihatan berbutir halus.

* Alamat Kertas:

  • Kertas Homepage:

Seperti yang ditunjukkan pada Gambar 1 (kanan), SoM menggunakan model segmentasi interaktif seperti SAM untuk membagi gambar menjadi wilayah pada berbagai tingkat granularitas dan menambahkan satu set penanda ke wilayah ini, seperti alfanumerik, masker, kotak. Gunakan gambar dengan tag sebagai input untuk mengatasi masalah di atas.

Mari kita lihat efeknya terlebih dahulu, GPT-4V di sebelah kiri, GPT-4V + SoM di sebelah kanan, jelas bahwa klasifikasi yang terakhir lebih rinci dan akurat.

Contoh di bawah ini masih sama, dan efek GPT-4V + SoM lebih jelas.

Selain itu, untuk penelitian ini, seseorang bertanya, "Apakah SoM manual (input manual) atau otomatis?"

Menurut Jianwei Yang, SoM bersifat otomatis atau semi-otomatis. Mereka mengumpulkan banyak alat segmentasi mereka sendiri, seperti SEEM, Semantic-SAM, dan SAM, untuk membantu pengguna secara otomatis mengelompokkan gambar untuk diri mereka sendiri. Pada saat yang sama, pengguna juga dapat memilih wilayah mereka sendiri.

SoM untuk Visi

Keuntungan unik menggunakan SoM GPT-4V adalah dapat menghasilkan output di luar teks. Karena setiap penanda secara khusus dikaitkan dengan wilayah gambar yang diwakili oleh topeng, topeng penanda yang disebutkan dalam output teks dapat dilacak.

Kemampuan untuk menghasilkan teks dan topeng berpasangan memungkinkan SoM GPT-4V menghasilkan teks asosiatif visual dan, yang lebih penting, mendukung berbagai tugas penglihatan berbutir halus, yang merupakan tantangan untuk model GPT-4V umum.

Melalui rekayasa sederhana, SoM memungkinkan GPT-4V digunakan secara luas untuk berbagai tugas penglihatan, seperti:

  • Segmentasi Gambar Kosakata Terbuka: Penelitian ini membutuhkan GPT-4V untuk memberikan representasi lengkap dari kategori semua wilayah berlabel serta kategori yang dipilih dari kumpulan yang telah ditentukan.
  • Segmentasi Referensi: Mengingat ekspresi referensi, tugas GPT-4V adalah memilih wilayah yang paling cocok dari wilayah kandidat yang dihasilkan oleh Kotak Alat Pemartisian Gambar.
  • Phrase Grounding: Sedikit berbeda dari segmentasi referensi, asosiasi frasa menggunakan kalimat lengkap yang terdiri dari beberapa frasa kata benda. Penelitian ini membutuhkan GPT-4V untuk menetapkan wilayah yang sesuai untuk semua frasa berlabel.
  • Segmentasi Objek Video: Ambil dua gambar sebagai input. Gambar pertama adalah gambar kueri yang berisi beberapa objek pada gambar kedua yang perlu dikenali. Mengingat bahwa GPT-4V mendukung banyak gambar sebagai input, SoMs juga dapat diterapkan pada visual yang berkorelasi di seluruh frame dalam video.

** Eksperimen dan Hasil **

Para peneliti menggunakan strategi "membagi-dan-menaklukkan" untuk menjalankan eksperimen dan evaluasi. Untuk setiap contoh, mereka menggunakan jendela obrolan baru sehingga tidak ada kebocoran konteks selama evaluasi.

Secara khusus, para peneliti memilih subset kecil data validasi dari setiap dataset. Untuk setiap gambar dalam himpunan data, mereka melapisi sekumpulan penanda pada area yang diekstraksi menggunakan kotak alat Segmentasi Gambar. Pada saat yang sama, berdasarkan tugas-tugas tertentu, peneliti menggunakan alat segmentasi yang berbeda untuk mengusulkan daerah.

Tabel 1 di bawah ini mencantumkan detail penyiapan untuk setiap tugas.

Para peneliti membandingkan metode mereka dengan model-model berikut:

  • Model dasar GPT-4V untuk koordinat yang diprediksi
  • Model khusus SOTA
  • LMM sumber terbuka

Hasil Kuantitatif

Hasil eksperimen terperinci ditunjukkan pada Tabel 2 di bawah ini.

Yang pertama adalah tugas segmentasi gambar. Para peneliti membandingkan GPT-4V + SoM dengan model segmentasi kuat MaskDINO pada dataset segmentasi COCO Panoptic dan OpenSeeD pada dataset segmentasi ADE20K Panoptik.

Hasilnya menunjukkan bahwa kinerja nol-sampel GPT-4V + SoM mendekati MaskDINO yang disetel dengan baik dan secara signifikan lebih baik daripada OpenSeeD. Kinerja serupa GPT-4V pada COCO dan ADE20K menunjukkan kemampuan generalisasi yang kuat untuk berbagai tugas domain visual dan semantik.

Kemudian muncul tugas rujukan, di mana para peneliti mengevaluasi model RES dan REC pada dataset RefCOCOg. Mereka menggunakan MaskDINO untuk membuat topeng dan melapisi topeng dan angka pada gambar. Kedua mIoU digunakan sebagai metrik evaluasi dan dibandingkan dengan model khusus SOTA PolyFormer dan SEESURE.

Hasilnya menunjukkan bahwa GPT-4V + SoM mengalahkan model khusus seperti Grounding DINO, Polyformer, dan LMM open source terbaru seperti Shikra, LLaVA-1.5, MiniGPT-v2, dan Ferret.

Ini diikuti oleh tugas asosiasi frasa di Flickr30K, di mana para peneliti menggunakan Grounding DINO untuk menghasilkan saran kotak untuk setiap gambar. GPT-4V+SoM mencapai performa nol-sampel yang lebih kuat daripada GLIPv2 dan Grounding INO.

Akhirnya, para peneliti mengevaluasi tugas segmentasi video pada dataset DAVIS2017. GPT-4V+SoM mencapai kinerja pelacakan terbaik (78,8 J&F) dibandingkan model penglihatan khusus lainnya.

Studi ablasi

Para peneliti mengeksplorasi bagaimana jenis tag mempengaruhi kinerja akhir tugas asosiasi frasa pada dataset Flickr30k dan membandingkan dua jenis tag. Yang pertama adalah angka dan topeng, dan yang kedua adalah angka, topeng, dan kotak.

Hasilnya ditunjukkan pada Tabel 3 di bawah ini, dan menambahkan kotak tambahan dapat meningkatkan kinerja secara signifikan.

Selain itu, para peneliti mengeksplorasi bagaimana GPT-4V berperilaku ketika menghasilkan token dengan anotasi kebenaran. Mereka memilih untuk mengganti topeng segmentasi yang diprediksi dengan topeng kebenaran di set validasi RefCOCOg. Ini berarti bahwa GPT-4V hanya perlu memilih satu dari area frasa anotasi. Seperti yang diharapkan, kinerja segmentasi referensi dapat lebih ditingkatkan, terutama jika model segmentasi memiliki beberapa wilayah yang hilang.

Seperti yang ditunjukkan pada Tabel 4 di bawah ini, menggunakan masker kebenaran dalam SoM dapat meningkatkan kinerja pada RefCOCOg sebesar 14,5% (mIoU).

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)