GPT-4V yang tangguh secara frontal! Alumni Universitas Zhejiang model besar multi-modal sumber terbuka LLaVA-1.5, 13 miliar parameter, dan 8 A100 dapat dilatih dalam satu hari

Sumber asli: Xinzhiyuan

Sumber gambar: Dihasilkan oleh AI Tanpa Batas

Pada akhir September, OpenAI mengumumkan pencabutan larangan kemampuan multimodal ChatGPT. Kemampuan ajaib multi-modal GPT-4V membuat semua orang berseru: Apakah ini GPT-4.5?

Tidak lama kemudian, pesaing open source GPT-4V, LLaVA-1.5, sudah hadir!

Pada bulan April, para peneliti dari Universitas Wisconsin-Madison, Microsoft Research, dan Universitas Columbia melakukan open source model besar multi-modal end-to-end LLaVA yang baru.

Kini, LLaVA-1.5 yang ditingkatkan tidak hanya mencapai SOTA pada 11 pengujian benchmark, tetapi bahkan dapat bersaing langsung dengan GPT-4V.

Para peneliti secara signifikan meningkatkan kinerja LLaVA-1.5 dengan menggunakan CLIP-ViT-L-336px dengan pemetaan MLP dan menambahkan data VQA berorientasi tugas akademik dengan format respons sederhana.

Hasilnya menunjukkan bahwa LLaVA-1.5 yang memiliki arsitektur lebih sederhana hanya membutuhkan 1,2 juta data publik, mampu mengungguli Qwen-VL yang menggunakan 1,45 miliar data pelatihan dan HuggingFace IDEFICS (model 80B mirip Flamingo) yang menggunakan 130 juta data.

Diantaranya, pelatihan model 13B dapat diselesaikan dalam waktu 1 hari hanya dengan 8 A100.

LLaVA-1.5 bilah keras GPT-4V

Dikatakan mampu bersaing dengan GPT-4V, tapi apa kelebihan LLaVA-1.5?

Mari kita biarkan GPT-4V, LLaVA dan LLaVA-1.5 pk.

alamat proyek:

Pertanyaan: Jika ada kesalahan faktual, tolong tunjukkan. Jika tidak, tolong beri tahu saya, apa yang terjadi di gurun pasir?

Jawaban GPT-4V agak bodoh: "Maaf, saya tidak bisa menjawab pertanyaan ini karena tidak ada konteks untuk menunjukkan gurun yang Anda sebutkan."

LLaVA menjawab dengan tepat: "Dalam gambar, kota dan pantai membentuk cakrawala kota, dan orang-orang menikmati matahari terbenam. Pemandangan pantai ini sebenarnya berada di gurun pasir, dan ini sangat tidak biasa."

Satu-satunya pencetak gol sempurna, LLaVA-1.5, memberikan jawaban sempurna: "Tidak ada gurun sama sekali dalam gambar, tetapi ada pohon palem, pantai, cakrawala kota, dan perairan yang luas."

Selain itu, LLaVA-1.5 juga dapat mengekstrak informasi dari grafik dan merespons dalam format yang diperlukan, seperti mengeluarkannya dalam format JSON.

Terlihat bahwa LLaVA-1.5 pada dasarnya telah menyelesaikan tugasnya, dan masih terdapat beberapa kekurangan dibandingkan dengan GPT-4V.

Demikian pula, berikan LLaVA-1.5 gambar yang penuh dengan buah-buahan dan sayuran, dan gambar tersebut dapat diubah menjadi JSON seperti GPT-4V.

Analisis visual dan transformasi data cerdas, sesederhana itu!

Pertanyaan berikut ini tidak semudah itu - apa maksud gambar ini?

Ternyata ini adalah sketsa yang disederhanakan berdasarkan "Inception" karya Nolan.Untuk menambah kesulitan, nama karakter diubah menjadi nama samaran.

LLaVA-1.5 tidak bingung dan menjawab dengan percaya diri: "Ini adalah gambar tentang film" Inception ". Ini menunjukkan berbagai level di dunia mimpi, dan setiap level diwakili oleh sebuah garis. Gambar Tulis di selembar kertas dan letakkan kertas itu di atas meja."

Para pecinta kuliner bersukacita! Apa yang harus Anda lakukan jika melihat foto menggiurkan hingga membuat Anda ingin memakannya?

Kirim langsung ke LLaVA-1.5, dan itu akan segera menghasilkan resep untuk Anda.

Selain itu, LLaVA-1.5 dapat mengenali kode verifikasi tanpa melakukan "jailbreaking".

Itu juga dapat mendeteksi koin mana yang ada di gambar.

Yang paling mengesankan adalah LLaVA-1.5 juga dapat memberi tahu Anda jenis anjing apa yang ada di gambar.

Beberapa netizen menggunakan Bing untuk membuat gambar seorang pria yang mengenakan mantel musim dingin di pantai musim panas yang cerah, dan meminta LLaVA 1.5 untuk menunjukkan masalah apa yang ada dalam gambar tersebut.

Matanya yang tajam sangat tajam——

Ini adalah foto yang dimanipulasi atau diphotoshop dari seorang pria berjaket yang berdiri di tepi pantai. Pria itu membuka mantelnya dan matahari menyinari dirinya. Masalah pada gambar ini adalah gambar tersebut bukan pemandangan pantai sebenarnya. Pria itu sebenarnya tidak berdiri di pantai dan matahari tidak menyinari dirinya. Gambar ini di-photoshop untuk menciptakan ilusi pemandangan pantai, namun tidak benar-benar mewakili pemandangan tersebut.

Namun, kemampuan LLaVA-1.5 untuk menulis kode front-end sesuai desainnya lebih lemah.

Dilihat dari hasilnya, outputnya memang tergolong mentah...

8 A100, pelatihan selesai dalam satu hari

Arsitektur model LLaVA menghubungkan encoder visual terlatih (CLIP ViT-L/14) dengan model bahasa skala besar (Vicuna).

Kedua model tersebut dihubungkan oleh matriks pemetaan sederhana yang bertugas menyelaraskan atau mentransformasikan fitur visual dan linguistik agar dapat dimanipulasi dalam satu ruang yang menyatu.

Pada instruksi multi-modal yang mengikuti kumpulan data, LLaVA berkinerja baik, dengan skor 85,1% dibandingkan dengan GPT-4. Pada Science QA, akurasi LLaVA mencetak rekor baru, mencapai 92,53%.

Kali ini, para peneliti menetapkan dasar yang lebih kuat dan praktis berdasarkan kerangka LLaVA.

Alamat kertas:

Konektor lintas modal MLP dan penggabungan data terkait tugas akademik (seperti VQA) menghadirkan kemampuan pemahaman multimodal yang lebih kuat ke LLaVA.

Dibandingkan dengan InstructBLIP atau Qwen-VL, yang merupakan resampler visual yang dirancang khusus dan dilatih pada ratusan juta atau bahkan miliaran data pasangan gambar-teks, LLaVA menggunakan desain arsitektur LMM paling sederhana, yang hanya memerlukan 600 ribu gambar. -Pada pasangan teks, latih a lapisan pemetaan sederhana yang terhubung sepenuhnya.

Model terakhir dapat dilatih pada 8 A100 dalam satu hari, dan telah mencapai SOTA dalam berbagai pengujian benchmark.

Selain itu, Qwen-VL menyertakan data internal selama pelatihan, namun LLaVA hanya membutuhkan data publik.

Tidak ada keraguan bahwa kinerja dasar yang ditingkatkan dan mudah direproduksi ini akan memberikan referensi berharga untuk masa depan LMM open source.

Performa telah meningkat pesat, dan 11 item SOTA telah disegarkan

Sebagai model penyempurnaan instruksi visual sumber terbuka, LLaVA berkinerja sangat baik dalam kemampuan penalaran visual - dalam pengujian benchmark berdasarkan tugas mengikuti instruksi visual kehidupan nyata, LLaVA bahkan melampaui model terbaru.

Namun, LLaVA tidak berkinerja baik pada tolak ukur akademis yang seringkali memerlukan jawaban singkat, seperti kata-kata. Alasannya adalah LLaVA tidak dilatih sebelumnya pada data berskala besar.

Penskalaan model

Pertama, peneliti meningkatkan resolusi gambar masukan sehingga LLM dapat "melihat" detail gambar dengan jelas, dan menambahkan kumpulan data GQA sebagai sumber tambahan pengetahuan visual. Selain itu, data ShareGPT juga ditambahkan untuk memperbesar LLM menjadi 13B.

Hasil MM-Vet menunjukkan bahwa peningkatan paling signifikan terjadi ketika LLM diperluas menjadi 13B, yang juga menunjukkan bahwa kemampuan dasar LLM dalam dialog visual sangat penting.

Model terakhir setelah semua penyempurnaan, yang dikenal sebagai LLaVA-1.5, memiliki kinerja yang mengesankan, melampaui LLaVA asli dengan selisih yang lebar.

Hasil penskalaan untuk data, model, dan resolusi

Perbandingan dengan SOTA

Para peneliti kemudian menguji LLaVA-1.5 pada serangkaian tolok ukur VQA akademik dan tolok ukur yang diusulkan secara khusus untuk LMM yang mengikuti instruksi.

Hasilnya menunjukkan bahwa LLaVA-1.5 tidak hanya menggunakan lebih sedikit data pra-pelatihan dan penyempurnaan instruksi, tetapi juga memanfaatkan arsitektur paling sederhana, komputasi akademis, dan kumpulan data publik untuk mencapai kinerja terbaik - pada 11 dari 12 tolok ukur SOTA yang Diperoleh.

Selain itu, penelitian ini juga menemukan bahwa penyempurnaan instruksi visual memainkan peran yang lebih penting daripada pra-pelatihan dalam meningkatkan kemampuan LMM.

Hal ini juga membuat kita memikirkan kembali keuntungan dari sampler visual dan perlunya tambahan pra-pelatihan skala besar dalam hal kemampuan mengikuti instruksi multi-modal.

Perbandingan dengan metode SOTA pada 12 benchmark

Kiat format respons

Para peneliti menemukan bahwa metode sebelumnya seperti InstructBLIP tidak mampu mencapai keseimbangan antara VQA bentuk pendek dan bentuk panjang. Alasan utamanya adalah—

Pertama, petunjuk mengenai format respons tidak jelas.

Misalnya, "Q: {Question} A: {Answer}" tidak secara jelas menunjukkan format keluaran yang ideal. Bahkan dialog visual yang alami pun dapat menyebabkan LLM terlalu cocok dengan jawaban berformat pendek.

Kedua, LLM tidak disempurnakan.

Misalnya, InstructBLIP hanya menyempurnakan instruksi untuk Qformer. Meskipun token keluaran visual Qformer dapat digunakan untuk mengontrol panjang keluaran LLM, Qformer memiliki kapasitas yang relatif terbatas dibandingkan dengan LLM seperti LLaMA, sehingga mungkin tidak dapat melakukannya dengan benar.

Untuk mengatasi masalah ini, peneliti menyarankan untuk menambahkan petunjuk di akhir pertanyaan VQA yang akan memperjelas format keluaran, sehingga model dapat menghasilkan jawaban singkat. Misalnya: "Jawab pertanyaan dengan satu kata atau frasa."

Ketika LLM menggunakan petunjuk ini untuk menyempurnakan, LLaVA mampu menyempurnakan format keluaran dengan benar sesuai dengan instruksi pengguna dan tidak memerlukan pemrosesan tambahan data VQA menggunakan ChatGPT.

Hasilnya menunjukkan bahwa hanya dengan menambahkan VQAv2 dalam pelatihan, performa LLaVA di MME meningkat secara signifikan (1323,8 vs 502,8), yaitu 111 poin lebih tinggi daripada InstructBLIP!

### Data Tugas Akademik

Para peneliti selanjutnya menambahkan kumpulan data VQA untuk tugas akademik VQA, OCR, dan persepsi tingkat regional guna meningkatkan kemampuan model dari berbagai aspek.

Mereka pertama kali menyertakan empat kumpulan data tambahan yang digunakan oleh InstructBLIP: Open Knowledge VQA.

Diantaranya, A-OKVQA diubah menjadi format soal pilihan ganda dan menggunakan format jawaban spesifik prompt – jawab langsung dengan huruf pada pilihan yang diberikan.

Hanya menggunakan sebagian dari kumpulan data yang digunakan oleh InstructBLIP, LLaVA telah melampaui InstructBLIP dalam ketiga tugas di Tabel 1, yang menunjukkan bahwa desain LLaVA sangat efektif.

Selain itu, para peneliti menemukan bahwa kemampuan model untuk melokalisasi detail visual yang terperinci dapat ditingkatkan dengan menambahkan lebih lanjut kumpulan data VQA tingkat wilayah.

Generalisasi instruksi format zero-shot

Meskipun LLaVA-1.5 hanya menggunakan instruksi format terbatas untuk pelatihan, LLaVA-1.5 dapat digeneralisasikan ke instruksi format lain.

Misalnya, VizWiz mengharuskan model untuk mengeluarkan "tidak dapat dijawab" ketika konten yang disediakan tidak cukup untuk menjawab pertanyaan, dan perintah format jawaban LLaVA dapat secara efektif menginstruksikan model untuk melakukannya (pertanyaan yang tidak dapat dijawab berjumlah 11,1% → 67,8%).

### Kemampuan multi-bahasa zero-shot

Pada saat yang sama, LLaVA-1.5 tidak disesuaikan untuk instruksi multi-bahasa. Namun, karena ShareGPT berisi data relevan dalam jumlah besar, ShareGPT masih dapat menerapkan perintah multi-modal berikut dalam berbagai bahasa.

Para peneliti mengevaluasi secara kuantitatif kemampuan generalisasi model ke bahasa Mandarin di MMBenchCN, di mana pertanyaan MMBench diubah ke bahasa Mandarin.

Perlu dicatat bahwa LLaVA-1.5 7,3% lebih akurat dibandingkan Qwen-VL-Chat (63,6% vs 56,7%). Diantaranya, Qwen telah menyempurnakan instruksi multimodal Tiongkok, sedangkan LLaVA-1.5 belum.

Biaya komputasi

Untuk LLaVA-1.5, para peneliti menggunakan kumpulan data pra-pelatihan yang sama seperti LCS-558K dan menyimpan jumlah iterasi pelatihan penyempurnaan instruksi dan ukuran batch yang kira-kira sama dengan LLaVA.

Karena resolusi masukan gambar ditingkatkan menjadi 336 piksel, waktu pelatihan LLaVA-1.5 adalah 2 kali lipat dari LLaVA: 6 jam pra-pelatihan dan 20 jam penyempurnaan instruksi visual menggunakan 8 A100.

Batasan

Walaupun LLaVA-1.5 telah mencapai hasil yang sangat baik, namun harus diakui masih memiliki beberapa keterbatasan.

Pertama, LLaVA menggunakan patch gambar lengkap, yang dapat memperpanjang waktu setiap iterasi pelatihan.

Kedua, LLaVA-1.5 belum mampu menangani banyak gambar karena kurangnya instruksi untuk mengikuti data dan keterbatasan panjang konteks.

Ketiga, meskipun LLaVA-1.5 dapat mengikuti instruksi kompleks dengan baik, kemampuan pemecahan masalahnya masih terbatas di beberapa area, yang dapat dicapai dengan menyempurnakan data dengan model bahasa yang lebih kuat dan instruksi visual yang ditargetkan dan berkualitas tinggi.

Terakhir, LLaVA-1.5 rentan terhadap halusinasi dan misinformasi dan oleh karena itu harus digunakan dengan hati-hati dalam aplikasi penting seperti medis.

tentang Penulis

Haotian Liu

Haotian Liu adalah mahasiswa doktoral di bidang ilmu komputer di Universitas Wisconsin-Madison di bawah bimbingan Profesor Yong Jae Lee. Sebelumnya, beliau memperoleh gelar sarjana dari Universitas Zhejiang.

Minat penelitiannya adalah pada visi komputer dan pembelajaran mesin, khususnya algoritma yang efisien untuk persepsi dan pemahaman visual. Penelitian terbaru berfokus pada pembuatan model besar yang dapat disesuaikan berdasarkan niat manusia.

Chunyuan Li

Chunyuan Li adalah peneliti utama di Microsoft Research Redmond.

Sebelumnya, ia memperoleh gelar PhD di bidang pembelajaran mesin dari Duke University, dengan pembimbingnya adalah Profesor Lawrence Carin. Ia pernah menjabat sebagai ketua lapangan NeurIPS, ICML, ICLR, EMNLP dan AAAI, serta editor tamu IJCV.

Penelitian terbarunya berfokus pada pelatihan awal skala besar dalam visi komputer dan pemrosesan bahasa alami. Misalnya, membangun model multi-modal berskala besar yang mengikuti niat manusia, pra-pelatihan visual dan bahasa, serta model generatif mendalam berskala besar.

Yuheng Li

Yuheng Li adalah mahasiswa doktoral ilmu komputer di Universitas Wisconsin-Madison, dibimbing oleh Profesor Yong Jae Lee. Sebelumnya, beliau menerima gelar sarjana dari Universitas Sains dan Teknologi Huazhong.

Minat penelitiannya adalah pada pembuatan dan pemrosesan gambar multi-modal yang terkendali, dan masalah lain yang berkaitan dengan visi kreatif.

Referensi:

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)