MiniGPT-5, yang menyatukan pembuatan gambar dan teks, hadir di sini: Token menjadi Voken, dan model tidak hanya dapat terus menulis, tetapi juga secara otomatis menambahkan gambar.
Model besar GPT-5 OpenAI tampaknya masih jauh dari harapan, namun beberapa peneliti telah memimpin peluncuran model lintas generasi visual dan bahasa yang inovatif, MiniGPT-5. Hal ini memiliki implikasi penting untuk menghasilkan gambar dengan deskripsi tekstual yang koheren.
Sumber gambar: Dihasilkan oleh AI Tanpa Batas
Model-model besar membuat lompatan antara bahasa dan visi, menjanjikan pemahaman yang lancar dan menghasilkan konten teks dan gambar. Dalam serangkaian penelitian terbaru, integrasi fitur multimodal tidak hanya menjadi tren yang berkembang namun telah membawa kemajuan penting mulai dari percakapan multimodal hingga alat pembuatan konten. Model bahasa besar telah menunjukkan kemampuan yang tak tertandingi dalam pemahaman dan pembuatan teks. Namun, menghasilkan gambar dengan narasi tekstual yang koheren secara bersamaan masih merupakan bidang yang perlu dikembangkan.
Baru-baru ini, tim peneliti dari Universitas California, Santa Cruz mengusulkan MiniGPT-5, sebuah teknologi generasi bahasa visual interleaved yang inovatif berdasarkan konsep "pemungutan suara generatif".
* Alamat kertas:
*alamat proyek:
Dengan menggabungkan mekanisme Difusi Stabil dengan LLM melalui token visual khusus "pemungutan suara generatif", MiniGPT-5 memperkenalkan model baru untuk generasi multi-modal yang terampil. Pada saat yang sama, metode pelatihan dua tahap yang diusulkan dalam artikel ini menekankan pentingnya tahap dasar bebas deskripsi, yang memungkinkan model untuk "berkembang" bahkan ketika data terbatas. Fase umum metode ini tidak memerlukan anotasi khusus domain, sehingga solusi kami berbeda dari metode yang sudah ada. Untuk memastikan bahwa teks dan gambar yang dihasilkan selaras, strategi kekalahan ganda dalam makalah ini diterapkan, dan metode pemungutan suara generatif serta metode klasifikasi semakin meningkatkan efek ini.
Berdasarkan teknik-teknik ini, karya ini menandai pendekatan transformatif. Dengan menggunakan ViT (Vision Transformer) dan Qformer serta model bahasa besar, tim peneliti mengubah masukan multi-modal menjadi suara generatif dan secara mulus memasangkannya dengan Stable Diffusion2.1 resolusi tinggi untuk mencapai pembuatan gambar yang sadar konteks. Makalah ini menggabungkan gambar sebagai masukan tambahan dengan metode penyesuaian instruksi dan memelopori penggunaan kerugian pembangkitan teks dan gambar, sehingga memperluas sinergi antara teks dan visi.
MiniGPT-5 mencocokkan model seperti batasan CLIP dan secara cerdik mengintegrasikan model difusi dengan MiniGPT-4 untuk mencapai hasil multimodal yang lebih baik tanpa bergantung pada anotasi khusus domain. Yang terpenting, strategi kami dapat memanfaatkan kemajuan model dasar bahasa visual multimodal dan memberikan cetak biru baru untuk meningkatkan kemampuan generatif multimodal.
Seperti yang ditunjukkan pada gambar di bawah, selain pemahaman multimodal aslinya dan kemampuan pembuatan teks, MiniGPT5 juga dapat memberikan keluaran multimodal yang masuk akal dan koheren:
Kontribusi artikel ini tercermin dalam tiga aspek:
Disarankan untuk menggunakan encoder multi-modal, yang mewakili teknik tujuan umum baru dan telah terbukti lebih efektif daripada LLM dan Voken generatif terbalik, dan menggabungkannya dengan Difusi Stabil untuk menghasilkan keluaran visual dan bahasa yang disisipkan (Multimodal model bahasa yang mampu menghasilkan multimodal).
Menyoroti strategi pelatihan dua tahap baru untuk generasi multimodal tanpa deskripsi. Tahap penyelarasan modal tunggal memperoleh fitur visual perataan teks berkualitas tinggi dari sejumlah besar pasangan teks-gambar. Fase pembelajaran multimodal mencakup tugas pelatihan baru, pembuatan konteks, memastikan bahwa visi dan teks dapat dikoordinasikan dan dihasilkan dengan baik. Menambahkan panduan bebas pengklasifikasi selama fase pelatihan semakin meningkatkan kualitas pembangkitan.
Dibandingkan dengan model generatif multi-modal lainnya, MiniGPT-5 mencapai kinerja tercanggih pada kumpulan data CC3M. MiniGPT-5 juga menetapkan tolok ukur baru pada kumpulan data terkenal seperti VIST dan MMDialog.
Selanjutnya, mari kita lihat detail penelitiannya.
Ikhtisar Metode
Untuk memungkinkan model bahasa skala besar memiliki kemampuan pembuatan multi-modal, para peneliti memperkenalkan kerangka kerja terstruktur yang mengintegrasikan model bahasa skala besar multi-modal yang telah dilatih sebelumnya dan model pembuatan teks-ke-gambar. Untuk mengatasi perbedaan antara bidang model yang berbeda, mereka memperkenalkan simbol visual khusus "suara generatif" (suara generatif), yang dapat dilatih langsung pada gambar aslinya. Selain itu, metode pelatihan dua tahap juga ditingkatkan, dikombinasikan dengan strategi bootstrapping bebas pengklasifikasi, untuk lebih meningkatkan kualitas pembangkitan.
Tahap masukan multimoda
Kemajuan terkini dalam model besar multimodal (seperti MiniGPT-4) terutama berfokus pada pemahaman multimodal, yang mampu memproses gambar sebagai masukan berkelanjutan. Untuk memperluas fungsinya ke generasi multi-modal, para peneliti memperkenalkan Voken generatif yang dirancang khusus untuk menghasilkan fitur visual. Selain itu, mereka juga mengadopsi teknik penyesuaian parameter yang efisien dalam kerangka model bahasa besar (LLM) untuk pembelajaran keluaran multi-modal.
Pembuatan keluaran multimoda
Untuk menyelaraskan token generatif dengan model generatif secara akurat, kami merumuskan modul pemetaan ringkas untuk pencocokan dimensi dan menggabungkan beberapa kerugian yang diawasi, termasuk hilangnya ruang teks dan hilangnya model difusi laten. Hilangnya ruang teks membantu model mempelajari lokalisasi token yang benar, sementara hilangnya difusi laten secara langsung menyelaraskan token dengan fitur visual yang sesuai. Karena fitur simbol generatif dipandu langsung oleh gambar, metode ini tidak memerlukan deskripsi gambar yang komprehensif, sehingga memungkinkan pembelajaran bebas deskripsi.
Strategi Pelatihan
Mengingat adanya pergeseran domain yang tidak dapat diabaikan antara domain teks dan domain gambar, peneliti menemukan bahwa pelatihan langsung pada kumpulan data teks dan gambar yang disisipkan secara terbatas dapat menyebabkan ketidakselarasan dan penurunan kualitas gambar.
Oleh karena itu, mereka menggunakan dua strategi pelatihan berbeda untuk mengatasi masalah ini. Strategi pertama melibatkan penggunaan teknik bootstrapping bebas pengklasifikasi untuk meningkatkan efektivitas token yang dihasilkan selama proses difusi; strategi kedua terungkap dalam dua fase: fase pra-pelatihan awal yang berfokus pada penyelarasan fitur kasar, diikuti dengan fase penyesuaian. pada pembelajaran fitur yang kompleks.
Eksperimen dan hasil
Untuk mengevaluasi kemanjuran model, para peneliti melakukan serangkaian evaluasi pada berbagai tolok ukur. Eksperimen ini bertujuan untuk menjawab beberapa pertanyaan kunci:
Bisakah MiniGPT-5 menghasilkan gambar yang dapat dipercaya dan teks yang masuk akal?
Bagaimana kinerja MiniGPT-5 dibandingkan dengan model SOTA lainnya dalam tugas pembuatan bahasa visual satu putaran dan multi-putaran yang disisipkan?
Apa dampak desain setiap modul terhadap kinerja secara keseluruhan?
Untuk mengevaluasi performa model pada tolok ukur yang berbeda pada tahapan pelatihan yang berbeda, sampel analisis kuantitatif MiniGPT-5 ditunjukkan pada Gambar 3 di bawah:
Evaluasi di sini mencakup domain visual (metrik terkait gambar) dan linguistik (metrik teks) untuk menunjukkan sifat umum dan kekuatan model yang diusulkan.
Penilaian Langkah Akhir VIST
Rangkaian eksperimen pertama melibatkan evaluasi satu langkah, yaitu menghasilkan gambar yang sesuai berdasarkan model pada langkah terakhir, dan hasilnya ditunjukkan pada Tabel 1.
MiniGPT-5 mengungguli SD 2 yang disempurnakan di ketiga pengaturan. Khususnya, skor CLIP model MiniGPT-5 (LoRA) secara konsisten mengungguli varian lain di berbagai jenis, terutama saat menggabungkan gambar dan teks. Di sisi lain, skor FID menyoroti daya saing model MiniGPT-5 (Awalan), yang menunjukkan bahwa mungkin ada trade-off antara kualitas penyematan gambar (yang tercermin dari skor CLIP) dan keragaman serta keaslian gambar (yang tercermin dari skor CLIP). skor FID). Dibandingkan dengan model yang dilatih langsung di VIST tanpa menyertakan tahap registrasi modalitas tunggal (MiniGPT-5 tanpa UAS), meskipun model tersebut tetap mempertahankan kemampuan untuk menghasilkan gambar yang bermakna, kualitas dan konsistensi gambar berkurang secara signifikan. Pengamatan ini menyoroti pentingnya strategi pelatihan dua tahap.
Penilaian Multi-Langkah VIST
Dalam evaluasi yang lebih rinci dan komprehensif, para peneliti secara sistematis memberikan model tersebut dengan konteks sejarah sebelumnya dan selanjutnya mengevaluasi gambar dan narasi yang dihasilkan pada setiap langkah.
Tabel 2 dan 3 merangkum hasil eksperimen ini, yang masing-masing merangkum kinerja metrik gambar dan bahasa. Hasil eksperimen menunjukkan bahwa MiniGPT-5 mampu menghasilkan gambar yang koheren dan berkualitas tinggi menggunakan input multimodal horizontal panjang di semua data tanpa memengaruhi kemampuan pemahaman multimodal model aslinya. Hal ini menyoroti kemanjuran MiniGPT-5 di berbagai lingkungan.
VIST Penilaian Manusia
Seperti yang ditunjukkan pada Tabel 4, MiniGPT-5 menghasilkan narasi teks yang lebih sesuai di 57,18% kasus, memberikan kualitas gambar yang lebih baik di 52,06% kasus, dan menghasilkan multi-mode yang lebih koheren di 57,62% adegan. Dibandingkan dengan garis dasar dua tahap yang mengadopsi narasi teks-ke-gambar tanpa mood subjungtif, data ini jelas menunjukkan kemampuan pembuatan multi-modal yang lebih kuat.
MMDialog beberapa putaran evaluasi
Hasilnya ditunjukkan pada Tabel 5. MiniGPT-5 mengungguli model dasar Divter dalam menghasilkan respons teks yang lebih akurat. Meskipun gambar yang dihasilkan memiliki kualitas yang serupa, MiniGPT-5 mengungguli model dasar dalam korelasi MM, yang menunjukkan bahwa model ini dapat mempelajari cara memposisikan pembuatan gambar dengan tepat dan menghasilkan respons multi-modal yang sangat konsisten.
Apa efeknya? Mari kita lihat keluaran MiniGPT-5. Gambar 7 di bawah menunjukkan perbandingan model dasar pada set validasi MiniGPT-5 dan CC3M.
Gambar 8 di bawah menunjukkan perbandingan antara MiniGPT-5 dan model dasar pada set validasi VIST.
Gambar 9 di bawah menunjukkan perbandingan antara MiniGPT-5 dan model dasar pada set pengujian MMDialog.
Untuk rincian penelitian lebih lanjut, silakan merujuk ke makalah asli.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
MiniGPT-5, yang menyatukan pembuatan gambar dan teks, hadir di sini: Token menjadi Voken, dan model tidak hanya dapat terus menulis, tetapi juga secara otomatis menambahkan gambar.
Model-model besar membuat lompatan antara bahasa dan visi, menjanjikan pemahaman yang lancar dan menghasilkan konten teks dan gambar. Dalam serangkaian penelitian terbaru, integrasi fitur multimodal tidak hanya menjadi tren yang berkembang namun telah membawa kemajuan penting mulai dari percakapan multimodal hingga alat pembuatan konten. Model bahasa besar telah menunjukkan kemampuan yang tak tertandingi dalam pemahaman dan pembuatan teks. Namun, menghasilkan gambar dengan narasi tekstual yang koheren secara bersamaan masih merupakan bidang yang perlu dikembangkan.
Baru-baru ini, tim peneliti dari Universitas California, Santa Cruz mengusulkan MiniGPT-5, sebuah teknologi generasi bahasa visual interleaved yang inovatif berdasarkan konsep "pemungutan suara generatif".
Dengan menggabungkan mekanisme Difusi Stabil dengan LLM melalui token visual khusus "pemungutan suara generatif", MiniGPT-5 memperkenalkan model baru untuk generasi multi-modal yang terampil. Pada saat yang sama, metode pelatihan dua tahap yang diusulkan dalam artikel ini menekankan pentingnya tahap dasar bebas deskripsi, yang memungkinkan model untuk "berkembang" bahkan ketika data terbatas. Fase umum metode ini tidak memerlukan anotasi khusus domain, sehingga solusi kami berbeda dari metode yang sudah ada. Untuk memastikan bahwa teks dan gambar yang dihasilkan selaras, strategi kekalahan ganda dalam makalah ini diterapkan, dan metode pemungutan suara generatif serta metode klasifikasi semakin meningkatkan efek ini.
Berdasarkan teknik-teknik ini, karya ini menandai pendekatan transformatif. Dengan menggunakan ViT (Vision Transformer) dan Qformer serta model bahasa besar, tim peneliti mengubah masukan multi-modal menjadi suara generatif dan secara mulus memasangkannya dengan Stable Diffusion2.1 resolusi tinggi untuk mencapai pembuatan gambar yang sadar konteks. Makalah ini menggabungkan gambar sebagai masukan tambahan dengan metode penyesuaian instruksi dan memelopori penggunaan kerugian pembangkitan teks dan gambar, sehingga memperluas sinergi antara teks dan visi.
MiniGPT-5 mencocokkan model seperti batasan CLIP dan secara cerdik mengintegrasikan model difusi dengan MiniGPT-4 untuk mencapai hasil multimodal yang lebih baik tanpa bergantung pada anotasi khusus domain. Yang terpenting, strategi kami dapat memanfaatkan kemajuan model dasar bahasa visual multimodal dan memberikan cetak biru baru untuk meningkatkan kemampuan generatif multimodal.
Seperti yang ditunjukkan pada gambar di bawah, selain pemahaman multimodal aslinya dan kemampuan pembuatan teks, MiniGPT5 juga dapat memberikan keluaran multimodal yang masuk akal dan koheren:
Selanjutnya, mari kita lihat detail penelitiannya.
Ikhtisar Metode
Untuk memungkinkan model bahasa skala besar memiliki kemampuan pembuatan multi-modal, para peneliti memperkenalkan kerangka kerja terstruktur yang mengintegrasikan model bahasa skala besar multi-modal yang telah dilatih sebelumnya dan model pembuatan teks-ke-gambar. Untuk mengatasi perbedaan antara bidang model yang berbeda, mereka memperkenalkan simbol visual khusus "suara generatif" (suara generatif), yang dapat dilatih langsung pada gambar aslinya. Selain itu, metode pelatihan dua tahap juga ditingkatkan, dikombinasikan dengan strategi bootstrapping bebas pengklasifikasi, untuk lebih meningkatkan kualitas pembangkitan.
Kemajuan terkini dalam model besar multimodal (seperti MiniGPT-4) terutama berfokus pada pemahaman multimodal, yang mampu memproses gambar sebagai masukan berkelanjutan. Untuk memperluas fungsinya ke generasi multi-modal, para peneliti memperkenalkan Voken generatif yang dirancang khusus untuk menghasilkan fitur visual. Selain itu, mereka juga mengadopsi teknik penyesuaian parameter yang efisien dalam kerangka model bahasa besar (LLM) untuk pembelajaran keluaran multi-modal.
Pembuatan keluaran multimoda
Untuk menyelaraskan token generatif dengan model generatif secara akurat, kami merumuskan modul pemetaan ringkas untuk pencocokan dimensi dan menggabungkan beberapa kerugian yang diawasi, termasuk hilangnya ruang teks dan hilangnya model difusi laten. Hilangnya ruang teks membantu model mempelajari lokalisasi token yang benar, sementara hilangnya difusi laten secara langsung menyelaraskan token dengan fitur visual yang sesuai. Karena fitur simbol generatif dipandu langsung oleh gambar, metode ini tidak memerlukan deskripsi gambar yang komprehensif, sehingga memungkinkan pembelajaran bebas deskripsi.
Strategi Pelatihan
Mengingat adanya pergeseran domain yang tidak dapat diabaikan antara domain teks dan domain gambar, peneliti menemukan bahwa pelatihan langsung pada kumpulan data teks dan gambar yang disisipkan secara terbatas dapat menyebabkan ketidakselarasan dan penurunan kualitas gambar.
Oleh karena itu, mereka menggunakan dua strategi pelatihan berbeda untuk mengatasi masalah ini. Strategi pertama melibatkan penggunaan teknik bootstrapping bebas pengklasifikasi untuk meningkatkan efektivitas token yang dihasilkan selama proses difusi; strategi kedua terungkap dalam dua fase: fase pra-pelatihan awal yang berfokus pada penyelarasan fitur kasar, diikuti dengan fase penyesuaian. pada pembelajaran fitur yang kompleks.
Eksperimen dan hasil
Untuk mengevaluasi kemanjuran model, para peneliti melakukan serangkaian evaluasi pada berbagai tolok ukur. Eksperimen ini bertujuan untuk menjawab beberapa pertanyaan kunci:
Untuk mengevaluasi performa model pada tolok ukur yang berbeda pada tahapan pelatihan yang berbeda, sampel analisis kuantitatif MiniGPT-5 ditunjukkan pada Gambar 3 di bawah:
Penilaian Langkah Akhir VIST
Rangkaian eksperimen pertama melibatkan evaluasi satu langkah, yaitu menghasilkan gambar yang sesuai berdasarkan model pada langkah terakhir, dan hasilnya ditunjukkan pada Tabel 1.
MiniGPT-5 mengungguli SD 2 yang disempurnakan di ketiga pengaturan. Khususnya, skor CLIP model MiniGPT-5 (LoRA) secara konsisten mengungguli varian lain di berbagai jenis, terutama saat menggabungkan gambar dan teks. Di sisi lain, skor FID menyoroti daya saing model MiniGPT-5 (Awalan), yang menunjukkan bahwa mungkin ada trade-off antara kualitas penyematan gambar (yang tercermin dari skor CLIP) dan keragaman serta keaslian gambar (yang tercermin dari skor CLIP). skor FID). Dibandingkan dengan model yang dilatih langsung di VIST tanpa menyertakan tahap registrasi modalitas tunggal (MiniGPT-5 tanpa UAS), meskipun model tersebut tetap mempertahankan kemampuan untuk menghasilkan gambar yang bermakna, kualitas dan konsistensi gambar berkurang secara signifikan. Pengamatan ini menyoroti pentingnya strategi pelatihan dua tahap.
Dalam evaluasi yang lebih rinci dan komprehensif, para peneliti secara sistematis memberikan model tersebut dengan konteks sejarah sebelumnya dan selanjutnya mengevaluasi gambar dan narasi yang dihasilkan pada setiap langkah.
Tabel 2 dan 3 merangkum hasil eksperimen ini, yang masing-masing merangkum kinerja metrik gambar dan bahasa. Hasil eksperimen menunjukkan bahwa MiniGPT-5 mampu menghasilkan gambar yang koheren dan berkualitas tinggi menggunakan input multimodal horizontal panjang di semua data tanpa memengaruhi kemampuan pemahaman multimodal model aslinya. Hal ini menyoroti kemanjuran MiniGPT-5 di berbagai lingkungan.
Seperti yang ditunjukkan pada Tabel 4, MiniGPT-5 menghasilkan narasi teks yang lebih sesuai di 57,18% kasus, memberikan kualitas gambar yang lebih baik di 52,06% kasus, dan menghasilkan multi-mode yang lebih koheren di 57,62% adegan. Dibandingkan dengan garis dasar dua tahap yang mengadopsi narasi teks-ke-gambar tanpa mood subjungtif, data ini jelas menunjukkan kemampuan pembuatan multi-modal yang lebih kuat.
Hasilnya ditunjukkan pada Tabel 5. MiniGPT-5 mengungguli model dasar Divter dalam menghasilkan respons teks yang lebih akurat. Meskipun gambar yang dihasilkan memiliki kualitas yang serupa, MiniGPT-5 mengungguli model dasar dalam korelasi MM, yang menunjukkan bahwa model ini dapat mempelajari cara memposisikan pembuatan gambar dengan tepat dan menghasilkan respons multi-modal yang sangat konsisten.