Dalam pembuatan gambar dan video, model bahasa mengalahkan model difusi untuk pertama kalinya, dan tokenizer adalah kuncinya

Mengapa model bahasa tertinggal dari model difusi dalam hal generasi visual? Penelitian dari Google, CMU menunjukkan bahwa tokenizer adalah kuncinya.

Sumber gambar: Dihasilkan oleh Unbounded AI

Model bahasa besar (LLM atau LM) mulai menghasilkan bahasa, tetapi seiring waktu mereka telah mampu menghasilkan konten dalam berbagai modalitas dan telah menjadi dominan dalam audio, ucapan, pembuatan kode, aplikasi medis, robotika, dan banyak lagi.

Tentu saja, LM juga dapat menghasilkan gambar dan video. Selama proses ini, piksel gambar dipetakan oleh tokenizer visual menjadi serangkaian token diskrit. Token ini kemudian dimasukkan ke dalam transformator LM dan digunakan untuk pemodelan generatif seperti kosa kata. Meskipun LM telah membuat kemajuan signifikan dalam generasi visual, LM masih berkinerja lebih buruk daripada model difusi. Misalnya, ketika dievaluasi pada himpunan data ImageNet, tolok ukur emas untuk pembuatan gambar, model bahasa terbaik berkinerja sebanyak 48% lebih buruk daripada model difusi (FID 3,41 vs. 1,79 saat menghasilkan gambar pada resolusi 256ˆ256).

Mengapa model bahasa tertinggal dari model difusi dalam hal generasi visual? Para peneliti dari Google, CMU, percaya bahwa alasan utamanya adalah kurangnya representasi visual yang baik, mirip dengan sistem bahasa alami kita, untuk secara efektif memodelkan dunia visual. Untuk mengkonfirmasi hipotesis ini, mereka melakukan penelitian.

Tautan Kertas:

Studi ini menunjukkan bahwa dengan tokenizer visual yang baik, model bahasa masking mengungguli model difusi SOTA dalam hal kesetiaan generatif dan efisiensi tolok ukur gambar dan video untuk data pelatihan yang sama, ukuran model yang sebanding, dan anggaran pelatihan. Ini adalah bukti pertama bahwa model bahasa mengalahkan model difusi pada tolok ukur ImageNet yang ikonik.

Perlu ditekankan bahwa tujuan para peneliti bukan untuk menegaskan apakah model bahasa lebih unggul dari model lain, tetapi untuk mempromosikan eksplorasi metode tokenisasi visual LLM. Perbedaan mendasar antara LLM dan model lain, seperti model difusi, adalah bahwa LLM menggunakan format laten diskrit, yaitu, token yang diperoleh dari memvisualisasikan tokenizer. Studi ini menunjukkan bahwa nilai token visual diskrit ini tidak boleh diabaikan karena kelebihannya sebagai berikut:

  1. Kompatibilitas dengan LLM. Keuntungan utama dari representasi token adalah bahwa ia memiliki bentuk yang sama dengan token bahasa, memungkinkannya untuk secara langsung memanfaatkan pengoptimalan yang telah dilakukan komunitas selama bertahun-tahun untuk mengembangkan LLM, termasuk pelatihan dan inferensi yang lebih cepat, kemajuan dalam infrastruktur model, cara untuk menskalakan model, dan inovasi seperti pengoptimalan GPU / TPU. Menyatukan visi dan bahasa melalui ruang token yang sama dapat meletakkan dasar bagi LLM multimodal yang benar-benar dapat dipahami, dihasilkan, dan beralasan dalam lingkungan visual kita.

  2. Representasi kompresi. Token diskrit dapat memberikan perspektif baru tentang kompresi video. Token visual dapat digunakan sebagai format kompresi video baru untuk mengurangi penyimpanan disk dan bandwidth yang ditempati oleh data selama transmisi melalui Internet. Tidak seperti piksel RGB terkompresi, token ini dapat dimasukkan langsung ke dalam model generatif, melewati dekompresi tradisional dan langkah-langkah pengkodean potensial. Ini dapat mempercepat pemrosesan pembuatan aplikasi video, yang sangat bermanfaat dalam skenario komputasi tepi.

  3. Keuntungan pemahaman visual. Penelitian sebelumnya telah menunjukkan bahwa token diskrit berharga sebagai target pra-pelatihan dalam pembelajaran representasi yang diawasi sendiri, seperti yang dibahas dalam BEiT dan BEVT. Selain itu, studi ini menemukan bahwa menggunakan token sebagai input model meningkatkan ketahanan dan generalisasi.

Dalam makalah ini, para peneliti mengusulkan tokenizer video yang disebut MAGVIT-v2, yang bertujuan untuk memetakan video (dan gambar) menjadi token diskrit yang ringkas.

Model ini didasarkan pada tokenizer video SOTA – MAGVIT dalam kerangka VQ-VAE. Berdasarkan hal ini, para peneliti mengusulkan dua teknologi baru: 1) metode kuantifikasi bebas pencarian baru yang memungkinkan untuk mempelajari sejumlah besar kata untuk meningkatkan kualitas generasi model bahasa; 2) Melalui analisis empiris yang ekstensif, mereka mengidentifikasi modifikasi pada MAGVIT yang tidak hanya meningkatkan kualitas pembuatan, tetapi juga memungkinkan gambar dan video diberi token menggunakan kosakata bersama.

Hasil eksperimen menunjukkan bahwa model baru ini mengungguli tokenizer video berkinerja terbaik sebelumnya, MAGVIT, di tiga bidang utama. Pertama, model baru ini secara signifikan meningkatkan kualitas build MAGVIT, menyegarkan SOTA pada tolok ukur gambar dan video umum. Kedua, penelitian pengguna telah menunjukkan bahwa kualitas kompresinya melebihi MAGVIT dan HEVC standar kompresi video saat ini. Selain itu, ini sebanding dengan codec video VVC generasi berikutnya. Akhirnya, para peneliti menunjukkan bahwa token baru mereka berkinerja lebih kuat pada tugas pemahaman video dengan dua pengaturan dan tiga dataset dibandingkan dengan MAGVIT.

Pengenalan Metode

Makalah ini memperkenalkan tokenizer video baru yang bertujuan untuk secara dinamis memetakan ruang-waktu dalam adegan visual menjadi token diskrit ringkas yang cocok untuk model bahasa. Selain itu, metode ini dibangun di atas MAGVIT.

Studi ini kemudian menyoroti dua desain baru: Lookup-Free Quantization (LFQ) dan peningkatan model tokenizer.

** Tidak ada kuantisasi pencarian **

Baru-baru ini, model VQ-VAE telah membuat kemajuan besar, tetapi satu kelemahan dari metode ini adalah bahwa hubungan antara peningkatan kualitas rekonstruksi dan kualitas generasi berikutnya tidak jelas. Banyak orang secara keliru berpikir bahwa meningkatkan rekonstruksi sama dengan meningkatkan generasi model bahasa, misalnya, memperluas kosakata dapat meningkatkan kualitas rekonstruksi. Namun, peningkatan ini hanya berlaku untuk generasi kosakata kecil, yang dapat merusak kinerja model bahasa ketika kosakata sangat besar.

Artikel ini mengurangi dimensi penyematan buku kode VQ-VAE ke 0, yang merupakan buku kode

diganti dengan satu set bilangan bulat

ke dalamnya

Berbeda dengan model VQ-VAE, desain baru ini benar-benar menghilangkan kebutuhan untuk pencarian tertanam, maka nama LFQ. Makalah ini menemukan bahwa LFQ dapat meningkatkan kualitas generasi model bahasa dengan meningkatkan kosa kata. Seperti yang ditunjukkan oleh kurva biru pada Gambar 1, baik rekonstruksi dan generasi meningkat seiring dengan meningkatnya kosakata — fitur yang tidak diamati dalam pendekatan VQ-VAE saat ini.

Sejauh ini, ada banyak metode LFQ yang tersedia, tetapi artikel ini membahas varian sederhana. Secara khusus, ruang laten LFQ diuraikan menjadi produk Cartesian dari variabel dimensi tunggal, yaitu

。 Misalkan diberi vektor fitur

, secara kuantitatif mewakili setiap dimensi q (z) yang diperoleh dari berikut ini:

Untuk LFQ, indeks token untuk q (z) adalah:

Selain itu, artikel ini juga menambahkan hukuman entropi selama pelatihan:

Peningkatan Model Visual Tokenizer

Gambar federasi - tokenisasi video. Untuk membangun tokenizer gambar-video federasi, diperlukan desain baru. Artikel ini menemukan bahwa CNN 3D berkinerja lebih baik daripada transformator spasial.

Makalah ini mengeksplorasi dua opsi desain yang mungkin, seperti Gambar 2b yang menggabungkan C-ViViT dengan MAGVIT; Gambar 2c menggunakan konvolusi 3D kausal temporal sebagai pengganti CNN 3D biasa.

Tabel 5a membandingkan desain pada Gambar 2 secara empiris dan menemukan bahwa CNN 3D kausal berkinerja terbaik.

Selain menggunakan lapisan CNN 3D kausal, modifikasi arsitektur lainnya telah dilakukan untuk meningkatkan kinerja MAGVIT, seperti mengubah encoder downsampler dari pooling rata-rata ke konvolusi langkah; Contoh lain adalah menambahkan lapisan normalisasi grup adaptif sebelum blok residu dari setiap resolusi dalam decoder.

Hasil Eksperimental

Eksperimen memverifikasi kinerja tokenizer yang diusulkan dalam makalah ini dari tiga bagian: pembuatan video dan gambar, kompresi video, dan pengenalan gerak. Gambar 3 secara visual membandingkan hasil Tokenizer dengan penelitian sebelumnya.

Pembuatan video. Tabel 1 menunjukkan bahwa model ini melampaui semua prior art di kedua tolok ukur, menunjukkan bahwa tokenizer visual yang baik memainkan peran penting dalam memungkinkan LM menghasilkan video berkualitas tinggi.

Gambar 4 menunjukkan sampel kualitatif model.

Pembuatan gambar. Dalam makalah ini, hasil pembuatan gambar MAGVIT-v2 dievaluasi di bawah pengaturan kondisi kelas ImageNet standar. Hasil penelitian menunjukkan bahwa model yang diusulkan mengungguli model difusi berkinerja terbaik dalam hal kualitas pengambilan sampel (ID dan IS) dan efisiensi waktu inferensi (langkah pengambilan sampel).

Gambar 5 menunjukkan visualisasi.

Kompresi video. Hasilnya ditunjukkan pada Tabel 3, dan model mengungguli MAGVIT pada semua metrik dan mengungguli semua metode pada LPIPS.

Pemahaman video. Seperti yang ditunjukkan pada Tabel 4, MAGVIT-v2 mengungguli MAGVIT terbaik sebelumnya dalam penilaian ini.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)