Meta mengubah multimodalitas! Alumni Universitas Peking bekerja sama, model grafik Vincent 7 miliar parameter mengalahkan Difusi

2023-07-16 05:38:54

Sumber: Xinzhiyuan

Kerja sama alumni Universitas Peking, Meta merilis model multimodal tunggal pertama dalam sejarah! Model 7B mengalahkan Difusi, dan masalah gambar tangan yang sempurna diselesaikan dengan sempurna.

Meta hadir lagi!

Baru saja, Meta meluncurkan model multimodal berbasis Transformer - CM3leon, yang telah membuat terobosan mutlak di bidang grafik Vincent dan pemahaman gambar, dan dapat disebut sebagai yang terbaik dari jenisnya.

Selain itu, kombinasi beberapa modalitas menjadi satu model belum pernah terjadi sebelumnya dalam sistem AI yang diungkapkan sebelumnya.

Jelas, penelitian oleh Meta ini mendefinisikan standar baru untuk AI multimodal, yang menunjukkan bahwa sistem AI dapat sepenuhnya beralih di antara tugas-tugas seperti memahami, mengedit, dan menghasilkan gambar, video, dan teks.

Sementara itu, peluncuran CM3leon secara resmi menandai pertama kalinya model autoregresif menyamai kinerja model difusi generatif terkemuka pada tolok ukur utama.

Alamat kertas:

Sebelumnya, tiga model bintang yang paling banyak mendapat perhatian di bidang grafik Vincent adalah Stable Diffusion, DALL-E dan Midjourney. Teknik diagram Vinsen pada dasarnya mengandalkan model difusi.

Tetapi signifikansi revolusioner dari CM3leon adalah ia menggunakan teknologi yang sama sekali berbeda — model autoregresif berdasarkan tokenizer.

Hasil menunjukkan bahwa model autoregresi berdasarkan tokenizer tidak hanya lebih efektif daripada metode berdasarkan model difusi, dan mencapai SOTA di bidang grafik Vincentian, tetapi juga membutuhkan perhitungan pelatihan lima kali lebih sedikit daripada metode berbasis Transformer sebelumnya. !

Bersiaplah, gelombang efek keren akan datang

Hanya dengan melihat indikator kinerja mentah tidak dapat menjelaskan apapun.

Di mana CM3leon benar-benar bersinar adalah dalam menangani tugas-tugas permintaan dan pengeditan gambar yang lebih kompleks.

Gambar yang dirender secara akurat dengan hasil yang menakjubkan

Misalnya, secara akurat dapat merender gambar dari isyarat seperti "kaktus kecil di Sahara mengenakan topi jerami dan kacamata hitam neon".

Sewenang-wenang, edit gambar sesuka Anda

CM3leon juga memiliki kemampuan unik untuk mengedit gambar yang ada berdasarkan instruksi teks bentuk bebas, seperti mengubah warna langit, atau menambahkan objek di lokasi tertentu.

Fungsi di atas jauh melebihi efek yang dapat dicapai oleh model seperti DALL-E 2.

Model tunggal multimodal yang belum pernah ada sebelumnya

Arsitektur serbaguna CM3leon memungkinkannya untuk bertransisi secara bebas dan mulus antara tugas teks, gambar, dan komposisi.

Selain kemampuan diagram Vincent, CM3leon dapat membuat anotasi untuk gambar, menjawab pertanyaan tentang konten gambar, dan bahkan membuat gambar dari deskripsi tekstual kotak pembatas dan peta segmentasi.

Kombinasi modalitas menjadi satu model ini belum pernah terjadi sebelumnya dalam sistem AI yang diungkapkan sebelumnya.

: Apa yang dipegang anjing itu? Model itu menjawab: tongkat.

: Mendeskripsikan gambar yang diberikan secara mendetail. Model menjawab: Dalam gambar ini, seekor anjing memegang tongkat di mulutnya. Ada rumput di tanah. Gambar memiliki pohon di latar belakang.

Diberikan deskripsi teks dari segmentasi kotak pembatas gambar, yang menunjukkan di mana kolam dan cermin diperlukan dalam gambar, CM3leon dapat menghasilkan gambar yang sesuai dengan tepat.

Resolusi Super Tinggi

Platform super-resolusi terpisah dapat diintegrasikan dengan output CM3leon, menghasilkan peningkatan resolusi dan detail yang dramatis.

Masukkan "sebuah pulau kecil melingkar di tengah danau, dengan hutan di sekitar danau, sangat kontras"——

** Selesaikan masalah pelukis AI **

Bahkan masalah AI yang sudah lama tidak bisa menggambar dengan mudah diselesaikan oleh CM3leon.

Model autoregresif mengalahkan Difusi untuk pertama kalinya?

Di bidang diagram Vincent yang menjadi populer dalam beberapa tahun terakhir, Midjourney, DALL-E 2 dan Stable Diffusion semuanya menggunakan teknologi difusi. Sementara teknik Difusi memberikan hasil yang menakjubkan, teknik ini intensif secara komputasi, yang membuatnya intensif secara komputasi, mahal untuk dijalankan, dan seringkali tidak memiliki kecepatan yang dibutuhkan untuk aplikasi real-time.

Menariknya, OpenAI ingin mengeksplorasi kemungkinan Transformer sebagai generasi gambar melalui model yang disebut Image GPT beberapa tahun lalu. Tapi akhirnya membatalkan ide yang mendukung Difusi.

CM3leon mengambil pendekatan yang sama sekali berbeda. Sebagai model berbasis Transformer, ini memanfaatkan mekanisme perhatian untuk menimbang relevansi input data (baik teks atau gambar).

Perbedaan arsitektural ini memungkinkan CM3leon mencapai kecepatan pelatihan yang lebih cepat dan paralelisasi yang lebih baik, sehingga menjadi lebih efisien daripada metode berbasis difusi tradisional.

Dengan hanya satu TPU, CM3leon dilatih secara efisien pada kumpulan data gambar dan mencapai skor FID 4,88 pada kumpulan data MS-COCO, melampaui model teks-ke-gambar Google Parti.

Pada saat yang sama, efisiensi CM3leon lebih dari 5 kali lipat dari arsitektur Transformer serupa.

Alasan mengapa CM3leon begitu sukses dapat dikaitkan dengan arsitektur dan metode pelatihannya yang unik.

Kunci dari kinerjanya yang kuat adalah teknik penyetelan halus yang diawasi (SFT).

SFT sebelumnya telah digunakan untuk melatih model pembuatan teks seperti ChatGPT untuk menghasilkan efek yang baik, tetapi Meta berpendapat bahwa ini juga berguna saat diterapkan pada gambar.

Faktanya, penyempurnaan instruksi meningkatkan kinerja CM3Leon tidak hanya dalam pembuatan gambar, tetapi juga dalam penulisan anotasi gambar, memungkinkannya untuk menjawab pertanyaan tentang gambar dan meningkatkan kinerja gambar dengan mengikuti instruksi teks seperti "Mengubah warna langit menjadi biru cerah." ") untuk mengedit gambar.

CM3leon hanya menggunakan arsitektur dekoder-transformator, mirip dengan model berbasis teks yang sudah ada, tetapi menambahkan kemampuan untuk memproses teks dan gambar.

Proses pelatihan melibatkan augmentasi pengambilan, serta penyempurnaan instruksi di berbagai tugas pembuatan gambar dan teks.

Dengan menerapkan teknik fine-tuning yang diawasi lintas modal, Meta secara signifikan meningkatkan kinerja CM3leon dalam anotasi gambar, QA visual, dan pengeditan teks.

Meskipun CM3leon hanya dilatih pada 3 miliar token teks, CM3leon cocok atau bahkan melampaui hasil model lain yang dilatih hingga 100 miliar token.

Sebagai model multimodal pertama yang disetel dengan cara yang mirip dengan model bahasa teks, Meta menggabungkan tahap pra-pelatihan yang diperbesar pengambilan skala besar dan tahap penyetelan halus yang diawasi multi-tugas kedua (SFT) di CM3leon.

Bagaimana perilaku CM3leon

Dengan kemampuan CM3leon, alat penghasil gambar dapat menghasilkan gambar yang lebih konsisten yang mengikuti isyarat input dengan lebih baik.

Berikut ini adalah demonstrasi kemampuan CM3leon dalam berbagai tugas, semuanya diselesaikan dengan satu model:

pembuatan teks ke gambar

Pengeditan gambar berbasis teks (misalnya, "mengubah warna langit menjadi biru cerah") menantang karena mengharuskan model untuk memahami instruksi tekstual dan konten visual.

Terutama ketika objek kompleks terlibat atau ketika petunjuk berisi banyak batasan yang harus ada di keluaran.

Dari teks cepat dengan struktur komposisi tinggi, CM3leon dapat menghasilkan gambar untuk diikuti.

(1) Kaktus kecil mengenakan topi jerami dan kacamata hitam neon di Gurun Sahara (2) Tampilan dekat tangan manusia (3) Karakter utama rakun dalam anime bersiap untuk pertempuran epik dengan pedang katana (4) Diberikan dalam gaya fantasi Tanda berhenti dengan "1991" tertulis di atasnya

Pengeditan gambar berbasis teks

Diberi gambar dan prompt teks, CM3leon dapat mengedit gambar sesuai dengan petunjuk dalam teks.

Karena keumuman model CM3leon, ini dicapai dengan model yang sama dengan tugas lainnya, tidak seperti model sebelumnya (seperti InstructPix2Pix) yang hanya disesuaikan untuk pengeditan gambar berbasis teks.

Pada saat yang sama, model CM3leon juga dapat menghasilkan deskripsi pendek atau panjang dan menjawab pertanyaan tentang gambar berdasarkan serangkaian petunjuk yang berbeda.

Ambil kastanye.

petunjuk:

Pertanyaan: Apa kesamaan kedua benda ini?

Konteks: Pilih jawaban yang paling tepat.

Pilihan: (A) Berkilau (B) Asin

Jawaban: Mari kita pikirkan langkah demi langkah:

Keluaran CM3Leon:

Pikirkan tentang setiap objek. Keripik itu asin. Pretzel asin. Jadi jawabannya adalah (B).

- petunjuk:

Jelaskan secara rinci semua objek dalam gambar yang diberikan.

Keluaran CM3Leon:

Sebuah tanda jalan duduk di tiang logam. Logo berwarna biru dengan teks putih di atasnya. Ada lampu merah di tiang. Langit berwarna biru cerah. Ada mobil yang diparkir di jalan. Ada pepohonan di kedua sisi jalan. Ada bangunan di kedua sisi jalan.

Demikian pula, CM3leon dapat dengan mudah menangani "pertanyaan dan jawaban gambar" berikut.

Untuk mempelajari lebih lanjut tentang CM3leon, Meta secara empiris mengevaluasi model yang disesuaikan dengan instruksi pada pembuatan keterangan gambar dan tugas menjawab pertanyaan visual, dan membandingkannya dengan tolok ukur SOTA sebelumnya.

Dibandingkan dengan Flamingo (100B) dan OpenFlamingo (40B), data teks model CM3leon jauh lebih sedikit (sekitar 3B token).

Tetapi dalam hal deskripsi gambar MS-COCO dan menjawab pertanyaan VQA2, CM3leon mencapai kinerja yang sama dengan OpenFlamingo sampel nol, dan bahkan mengalahkan Flamingo dengan hampir 10 poin persentase pada tugas VizWiz.

Pengeditan Gambar Berpanduan Struktur

Pengeditan gambar yang dipandu struktur bertujuan untuk memahami dan menafsirkan instruksi tekstual yang diberikan bersama dengan informasi struktural atau tata letak.

Hal ini memungkinkan model CM3leon untuk membuat kompilasi gambar yang konsisten secara visual dan sesuai konteks sambil mengikuti petunjuk struktural atau tata letak yang diberikan.

Dalam gambar yang hanya berisi segmentasi (tanpa kategori teks), hasilkan gambar. Masukan di sini mewakili gambar dari mana segmentasi diekstraksi.

Resolusi Super

Selain itu, ada trik umum di bidang pembuatan gambar - memanfaatkan tahap resolusi super yang dilatih secara terpisah untuk menghasilkan gambar beresolusi lebih tinggi dari keluaran model asli.

Untuk jenis tugas pembuatan teks-ke-gambar ini, CM3leon juga bekerja dengan sangat baik.

(1) Secangkir kopi panas dengan pegunungan sebagai latar belakang, beristirahat di jalan

(2) Saat matahari terbenam, jalan raya yang indah dan megah

(3) Pulau berbentuk lingkaran di tengah danau yang dikelilingi oleh hutan

Dan beberapa generasi gaya "fantasi".

(1) Kura-kura berenang di bawah air (2) Gajah berenang di bawah air (2) Sekawanan domba

Bagaimana membangun CM3Leon

Struktur

Dalam hal arsitektur, CM3Leon menggunakan Transformer khusus dekoder yang mirip dengan model teks dewasa.

Namun perbedaannya adalah CM3Leon mampu menginput dan menghasilkan teks dan gambar.

kereta

Dengan mengadopsi teknologi peningkatan pengambilan pelatihan yang diusulkan dalam makalah "Retri-Augmented Multimodal Language Modeling", Meta sangat meningkatkan efisiensi dan pengendalian model CM3Leon.

Pada saat yang sama, Meta juga menyempurnakan model CM3Leon pada berbagai tugas pembuatan gambar dan teks.

Kiri: input umum untuk berbagai tugas; kanan: output model yang sesuai. Selama pelatihan, Meta menggabungkan input dan output model dan melatih dengan tujuan yang sama seperti pada tahap pra-pelatihan.

Seiring berkembangnya industri AI, model generatif seperti CM3Leon menjadi lebih kompleks.

Model ini mempelajari hubungan antara visi dan teks dengan melatih jutaan contoh gambar, tetapi juga dapat mencerminkan bias yang ada dalam data pelatihan.

Oleh karena itu, Meta mengadopsi kumpulan data berlisensi untuk melatih CM3Leon.

Hasilnya juga menunjukkan bahwa CM3Leon masih mencapai performa yang kuat meskipun distribusi datanya cukup berbeda dari model sebelumnya.

Dalam kaitan ini, Meta berharap melalui upaya bersama semua pihak, dapat tercipta model yang lebih akurat, adil, dan adil.

Membuka jalan bagi model bahasa multimodal

Secara keseluruhan, Meta percaya bahwa kinerja CM3Leon yang luar biasa pada berbagai tugas merupakan langkah penting menuju pembuatan dan pemahaman gambar yang lebih realistis.

Dan model seperti itu pada akhirnya dapat membantu meningkatkan kreativitas dan mencapai penerapan yang lebih baik di metaverse.

tentang Penulis

Lili Yu, Bowen Shi dan Ramakanth Pasunuru adalah rekan penulis makalah ini.

Di antaranya, Lili Yu memperoleh gelar sarjana dari Departemen Fisika Universitas Peking, dan gelar doktor di bidang teknik elektro dan ilmu komputer dari MIT.

Referensi:

Lihat Asli

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
Pump.Fun Debuts on Gate
22 Popularitas
Join Gate VIP to Win MacBook
28k Popularitas
Trump Tariff Hikes
13k Popularitas
4HK Stablecoin Rules
2k Popularitas
5Truth Social Crypto ETF
778 Popularitas
6Gate Square Writing Contest Phase 1
5k Popularitas
7Altcoin ETF Watch
4k Popularitas
8Gate Alpha Trading Share
11k Popularitas
9Dr.Han Joins Gate Square
45k Popularitas
10Gate Square Creator Spark Program
152k Popularitas

Sematkan

peta situs