Generasi multimodal selalu menjadi area penelitian penting bagi raksasa teknologi seperti OpenAI, Microsoft, dan Baidu, tetapi bagaimana mencapai teks yang koheren dan gambar terkait adalah masalah yang rumit.
Untuk menerobos kemacetan teknis, University of California, Santa Cruz mengembangkan model MiniGPT-5 ** dan mengusulkan konsep teknis baru "Generative Vokens", yang menjadi "jembatan" antara ruang fitur teks dan ruang fitur gambar **, mewujudkan penyelarasan efektif data pelatihan biasa dan menghasilkan teks dan gambar berkualitas tinggi pada saat yang bersamaan.
Untuk mengevaluasi efek MiniGPT-5, para peneliti mengujinya pada beberapa dataset, termasuk CC3M, VIST, dan MMDialog. Hasilnya menunjukkan bahwa MiniGPT-5 mengungguli beberapa baseline perbandingan pada beberapa indikator, dan mampu menghasilkan teks dan gambar berkualitas tinggi yang koheren.
Misalnya, pada himpunan data VIS, skor CLIP gambar yang dihasilkan oleh MiniGPT-5 lebih tinggi daripada Difusi Stabil 2 yang disetel dengan baik; Dalam evaluasi manusia, MiniGPT-5 menghasilkan koherensi bahasa yang lebih baik (57,18%), kualitas gambar yang lebih tinggi (52,06%), dan koherensi multimodal yang lebih kuat (57,62%).
Pada dataset MMDialog, indeks korelasi MM MiniGPT-5 mencapai 0,67, melebihi model benchmark Divter 0,62. Ini sepenuhnya membuktikan kemampuan beradaptasi MiniGPT-5 yang kuat dalam mode data yang berbeda.
Alamat Sumber Terbuka:
Alamat:
Model MiniGPT-5 memiliki tiga inovasi utama: 1) Menggunakan encoder multi-modal untuk mengekstrak fitur teks dan gambar, yang mewakili teknologi penyelarasan teks-gambar baru, yang lebih baik daripada metode langsung menggunakan model bahasa besar untuk menghasilkan token visual.
Strategi pelatihan dua tahap tanpa deskripsi gambar lengkap diusulkan: tahap pertama berfokus pada penyelarasan sederhana teks dan gambar; Pada tahap kedua, pembelajaran fitur berbutir halus multimodal dilakukan.
Teknologi "tanpa panduan pengklasifikasi" diperkenalkan ke dalam pelatihan, yang secara efektif dapat meningkatkan kualitas konten generasi multimodal. Arsitektur modul utama adalah sebagai berikut.
Vokens Generatif
Inovasi inti MiniGPT-5 adalah mengedepankan konsep teknis "Generative Vokens", yang mewujudkan koneksi tanpa batas antara model bahasa besar dan model generasi gambar.
Secara khusus, para peneliti menambahkan delapan token Voken khusus ke leksikon model[IMG1] [IMG8]- 。 Voken ini digunakan sebagai placeholder untuk gambar selama pelatihan model.
Di sisi input, fitur gambar disambung dengan vektor kata Voken untuk membentuk input urutan. Pada output, model memprediksi posisi Voken ini, dan keadaan tersembunyi yang sesuai h \ _voken digunakan untuk mewakili konten gambar.
Kemudian, h_voken diubah menjadi fitur kondisional gambar ˆh_voken selaras dengan output encoder teks Difusi Stabil melalui modul pemetaan fitur.
Dalam Difusi Stabil, ˆh_voken digunakan sebagai input kondisional untuk memandu pembuatan gambar. Seluruh alur menyadari docking dari gambar ke model bahasa ke pembuatan gambar.
Metode penyelarasan melalui Voken ini lebih mudah daripada perhitungan terbalik dan lebih fleksibel daripada menggunakan deskripsi gambar. Sederhananya, Vokens Generatif bertindak sebagai "jembatan" yang membuat transfer informasi antara domain model yang berbeda lebih lancar.
Strategi Pelatihan Dua Fase
Mempertimbangkan bahwa ada perbedaan domain tertentu dalam ruang fitur teks dan gambar, MiniGPT-5 mengadopsi strategi pelatihan dua tahap.
Tahap pertama adalah fase penyelarasan unimodal: hanya data dari pasangan gambar-teks tunggal, seperti CC3M, yang digunakan. Model belajar menghasilkan Voken yang sesuai dari keterangan gambar. Pada saat yang sama, kehilangan judul gambar sekunder telah ditambahkan untuk membantu Voken menyelaraskan dengan konten gambar.
Tahap kedua adalah fase pembelajaran multimodal: fine-tuning menggunakan data yang berisi sampel multimodal yang berdekatan, seperti VIST. Siapkan tugas pelatihan yang berbeda, termasuk menghasilkan teks, menghasilkan gambar, dan keduanya. Kemampuan model untuk memproses informasi multimodal telah ditingkatkan.
Strategi bertahap ini dapat meringankan masalah pelatihan langsung pada data yang terbatas. Penyelarasan butir kasar dilakukan terlebih dahulu, kemudian fitur berbutir halus yang disetel halus, yang meningkatkan ekspresi dan kekokohan model.
Tidak Ada Panduan Pengklasifikasi
Untuk lebih meningkatkan koherensi teks dan gambar yang dihasilkan, MiniGPT-5 juga mengadopsi teknologi "no classifier guidance".
Ide intinya adalah bahwa dalam proses difusi gambar, Voken bersyarat diganti dengan fitur nol dengan probabilitas tertentu untuk mencapai generasi tanpa syarat.
Saat menyimpulkan, hasil kondisional dan tidak bersyarat digunakan sebagai sampel positif dan negatif, dan model dapat menggunakan kontras antara keduanya dengan lebih baik untuk menghasilkan output multimodal yang koheren. Metode ini sederhana dan efisien, tidak perlu memperkenalkan pengklasifikasi tambahan, dan memandu pembelajaran model melalui sifat perbandingan data.
Model Pembuatan Teks ke Gambar
MiniGPT-5 menggunakan Stable Diffusion 2.1 dan model multimodal MiniGPT-4 sebagai model generasi teks-ke-gambar. Gambar berkualitas tinggi dan beresolusi tinggi dapat dihasilkan dari deskripsi teks.
Difusi Stabil menggunakan model Difusi dan U-Net sebagai komponen utama. Model Difusi dapat mewakili gambar sebagai data noise, yang kemudian dapat didenoise dan direkonstruksi langkah demi langkah.
U-Net menggunakan fitur teks sebagai kondisi untuk memandu proses denoising untuk menghasilkan gambar yang sesuai. Dibandingkan dengan GAN, model Difusi lebih stabil, dan efek pembangkitannya lebih jelas dan lebih realistis.
Untuk secara akurat menyelaraskan penanda generatif dengan model generatif, para peneliti mengembangkan modul pemetaan kompak untuk pencocokan dimensi dan memasukkan beberapa kerugian yang diawasi, termasuk kehilangan ruang teks dan kehilangan model difusi laten.
Kehilangan spasial tekstual membantu model mempelajari posisi penanda yang benar, sedangkan kehilangan difusi potensial secara langsung menyelaraskan penanda dengan fitur visual yang sesuai. Karena fitur yang menghasilkan Voken dipandu gambar secara langsung, pembelajaran deskriptif dapat dicapai tanpa perlu deskripsi gambar yang komprehensif.
Menurut para peneliti, kontribusi terbesar MiniGPT-5 terletak pada integrasi yang efektif dari generasi teks dan generasi gambar. Hanya teks dan gambar biasa yang diperlukan untuk pra-pelatihan, dan pembuatan multimodal yang koheren dapat dilakukan tanpa deskripsi gambar yang rumit. Ini memberikan solusi yang seragam dan efisien untuk tugas multimodal.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Teknologi terobosan! Model multimodal sumber terbuka—MiniGPT-5
Sumber asli: AIGC Open Community
Generasi multimodal selalu menjadi area penelitian penting bagi raksasa teknologi seperti OpenAI, Microsoft, dan Baidu, tetapi bagaimana mencapai teks yang koheren dan gambar terkait adalah masalah yang rumit.
Untuk menerobos kemacetan teknis, University of California, Santa Cruz mengembangkan model MiniGPT-5 ** dan mengusulkan konsep teknis baru "Generative Vokens", yang menjadi "jembatan" antara ruang fitur teks dan ruang fitur gambar **, mewujudkan penyelarasan efektif data pelatihan biasa dan menghasilkan teks dan gambar berkualitas tinggi pada saat yang bersamaan.
Untuk mengevaluasi efek MiniGPT-5, para peneliti mengujinya pada beberapa dataset, termasuk CC3M, VIST, dan MMDialog. Hasilnya menunjukkan bahwa MiniGPT-5 mengungguli beberapa baseline perbandingan pada beberapa indikator, dan mampu menghasilkan teks dan gambar berkualitas tinggi yang koheren.
Misalnya, pada himpunan data VIS, skor CLIP gambar yang dihasilkan oleh MiniGPT-5 lebih tinggi daripada Difusi Stabil 2 yang disetel dengan baik; Dalam evaluasi manusia, MiniGPT-5 menghasilkan koherensi bahasa yang lebih baik (57,18%), kualitas gambar yang lebih tinggi (52,06%), dan koherensi multimodal yang lebih kuat (57,62%).
Alamat Sumber Terbuka:
Alamat:
Strategi pelatihan dua tahap tanpa deskripsi gambar lengkap diusulkan: tahap pertama berfokus pada penyelarasan sederhana teks dan gambar; Pada tahap kedua, pembelajaran fitur berbutir halus multimodal dilakukan.
Teknologi "tanpa panduan pengklasifikasi" diperkenalkan ke dalam pelatihan, yang secara efektif dapat meningkatkan kualitas konten generasi multimodal. Arsitektur modul utama adalah sebagai berikut.
Vokens Generatif
Inovasi inti MiniGPT-5 adalah mengedepankan konsep teknis "Generative Vokens", yang mewujudkan koneksi tanpa batas antara model bahasa besar dan model generasi gambar.
Secara khusus, para peneliti menambahkan delapan token Voken khusus ke leksikon model[IMG1] [IMG8]- 。 Voken ini digunakan sebagai placeholder untuk gambar selama pelatihan model.
Di sisi input, fitur gambar disambung dengan vektor kata Voken untuk membentuk input urutan. Pada output, model memprediksi posisi Voken ini, dan keadaan tersembunyi yang sesuai h \ _voken digunakan untuk mewakili konten gambar.
Dalam Difusi Stabil, ˆh_voken digunakan sebagai input kondisional untuk memandu pembuatan gambar. Seluruh alur menyadari docking dari gambar ke model bahasa ke pembuatan gambar.
Metode penyelarasan melalui Voken ini lebih mudah daripada perhitungan terbalik dan lebih fleksibel daripada menggunakan deskripsi gambar. Sederhananya, Vokens Generatif bertindak sebagai "jembatan" yang membuat transfer informasi antara domain model yang berbeda lebih lancar.
Strategi Pelatihan Dua Fase
Mempertimbangkan bahwa ada perbedaan domain tertentu dalam ruang fitur teks dan gambar, MiniGPT-5 mengadopsi strategi pelatihan dua tahap.
Tahap pertama adalah fase penyelarasan unimodal: hanya data dari pasangan gambar-teks tunggal, seperti CC3M, yang digunakan. Model belajar menghasilkan Voken yang sesuai dari keterangan gambar. Pada saat yang sama, kehilangan judul gambar sekunder telah ditambahkan untuk membantu Voken menyelaraskan dengan konten gambar.
Tahap kedua adalah fase pembelajaran multimodal: fine-tuning menggunakan data yang berisi sampel multimodal yang berdekatan, seperti VIST. Siapkan tugas pelatihan yang berbeda, termasuk menghasilkan teks, menghasilkan gambar, dan keduanya. Kemampuan model untuk memproses informasi multimodal telah ditingkatkan.
Strategi bertahap ini dapat meringankan masalah pelatihan langsung pada data yang terbatas. Penyelarasan butir kasar dilakukan terlebih dahulu, kemudian fitur berbutir halus yang disetel halus, yang meningkatkan ekspresi dan kekokohan model.
Tidak Ada Panduan Pengklasifikasi
Untuk lebih meningkatkan koherensi teks dan gambar yang dihasilkan, MiniGPT-5 juga mengadopsi teknologi "no classifier guidance".
Ide intinya adalah bahwa dalam proses difusi gambar, Voken bersyarat diganti dengan fitur nol dengan probabilitas tertentu untuk mencapai generasi tanpa syarat.
Saat menyimpulkan, hasil kondisional dan tidak bersyarat digunakan sebagai sampel positif dan negatif, dan model dapat menggunakan kontras antara keduanya dengan lebih baik untuk menghasilkan output multimodal yang koheren. Metode ini sederhana dan efisien, tidak perlu memperkenalkan pengklasifikasi tambahan, dan memandu pembelajaran model melalui sifat perbandingan data.
Model Pembuatan Teks ke Gambar
MiniGPT-5 menggunakan Stable Diffusion 2.1 dan model multimodal MiniGPT-4 sebagai model generasi teks-ke-gambar. Gambar berkualitas tinggi dan beresolusi tinggi dapat dihasilkan dari deskripsi teks.
Difusi Stabil menggunakan model Difusi dan U-Net sebagai komponen utama. Model Difusi dapat mewakili gambar sebagai data noise, yang kemudian dapat didenoise dan direkonstruksi langkah demi langkah.
U-Net menggunakan fitur teks sebagai kondisi untuk memandu proses denoising untuk menghasilkan gambar yang sesuai. Dibandingkan dengan GAN, model Difusi lebih stabil, dan efek pembangkitannya lebih jelas dan lebih realistis.
Kehilangan spasial tekstual membantu model mempelajari posisi penanda yang benar, sedangkan kehilangan difusi potensial secara langsung menyelaraskan penanda dengan fitur visual yang sesuai. Karena fitur yang menghasilkan Voken dipandu gambar secara langsung, pembelajaran deskriptif dapat dicapai tanpa perlu deskripsi gambar yang komprehensif.
Menurut para peneliti, kontribusi terbesar MiniGPT-5 terletak pada integrasi yang efektif dari generasi teks dan generasi gambar. Hanya teks dan gambar biasa yang diperlukan untuk pra-pelatihan, dan pembuatan multimodal yang koheren dapat dilakukan tanpa deskripsi gambar yang rumit. Ini memberikan solusi yang seragam dan efisien untuk tugas multimodal.