Interpretasi model grafik sastra terkuat OpenAI—DALL· E 3

Sumber asli: AIGC Open Community

Sumber gambar: Dihasilkan oleh Unbounded AI

Midjourney dan Stable Difusion telah mencapai sukses besar dalam monetisasi komersial dan pendaratan berbasis skenario, yang memungkinkan OpenAI melihat peluang bisnis baru dan meluncurkan DALL· Salah satu alasan penting untuk E 3.

Pekan lalu, OpenAI mengumumkan ketersediaan penuh model grafik Vensheng DALL· di antara pengguna ChatGPT Plus dan Enterprise Edition. E3, dan pada saat yang sama rilis makalah penelitian yang langka.

DALL· E 3 dan dua generasi DALL sebelumnya· E、DALL· Dibandingkan dengan E 2, ia telah mencapai lompatan kualitatif dalam pemahaman semantik, kualitas gambar, modifikasi gambar, interpretasi gambar, input teks panjang, dll., Terutama dalam kombinasi dengan ChatGPT, menjadi aplikasi kartu truf baru OpenAI.

Alamat kertas:

"Komunitas Terbuka AIGC" berikut akan didasarkan pada DALL· Makalah E3 menjelaskan prinsip-prinsip teknis utama dan fungsi masing-masing modul.

Para peneliti menemukan bahwa model gambar yang dihasilkan teks sering mengalami berbagai kesulitan dalam mengikuti deskripsi gambar terperinci, mengabaikan kata-kata dalam prompt atau membingungkan maknanya, karena kualitas deskripsi gambar yang buruk dalam dataset pelatihan.

Untuk menguji hipotesis ini, para peneliti pertama-tama melatih model yang menghasilkan keterangan untuk gambar deskriptif. Model ini dilatih dengan cermat untuk menghasilkan deskripsi gambar yang terperinci dan akurat.

Setelah menggunakan model ini untuk meregenerasi deskripsi untuk dataset pelatihan, para peneliti membandingkan beberapa model gambar yang dihasilkan teks yang dilatih pada deskripsi asli dan deskripsi yang baru dihasilkan.

Hasilnya menunjukkan bahwa model yang dilatih pada deskripsi baru secara signifikan lebih baik daripada model deskripsi asli dalam mengikuti petunjuk. Metode ini kemudian dilatih pada dataset skala besar – DALL-E 3.

Dari perspektif arsitektur teknis DALL-E 3, ini terutama dibagi menjadi dua modul: pembuatan deskripsi gambar dan pembuatan gambar.

** Modul Pembuatan Deskripsi Gambar **

Modul ini menggunakan encoder gambar CLIP (Contrastive Language-Image Pretraining) dan GPT Language Model (GPT-4) untuk menghasilkan deskripsi teks terperinci untuk setiap gambar.

Dengan membangun dataset deskripsi subjek skala kecil, dataset deskripsi rinci skala besar, dan menetapkan aturan generasi, para peneliti sangat meningkatkan jumlah output informasi deskripsi gambar oleh modul, dan memberikan dukungan kuat untuk generasi gambar berikutnya. Fungsi utama dari setiap modul adalah sebagai berikut:

1) Encoder Gambar CLIP

CLIP adalah model pencocokan teks gambar terlatih yang mengkodekan gambar menjadi vektor panjang tetap yang berisi informasi semantik gambar. DALL-E 3 menggunakan encoder gambar CLIP untuk menyandikan gambar pelatihan menjadi vektor fitur gambar sebagai bagian dari input pembuatan teks bersyarat.

2) Model Bahasa GPT

DALL-E 3 membangun model bahasa berdasarkan arsitektur GPT, dan belajar menghasilkan deskripsi teks yang koheren dengan memaksimalkan probabilitas gabungan dari pengambilan sampel urutan teks secara acak.

3) Pembuatan Teks Bersyarat

Dengan menggabungkan dua di atas, vektor fitur gambar dimasukkan ke dalam model bahasa GPT bersama dengan urutan kata sebelumnya, dan pembuatan teks kondisional gambar dapat direalisasikan. Melalui pelatihan, modul belajar untuk menghasilkan deskripsi Deive rinci untuk setiap gambar.

4) Optimalkan pelatihan

Meskipun infrastruktur untuk DALL-E 3 telah selesai, hasil pelatihan langsung tidak cukup ideal untuk menghasilkan deskripsi terperinci. Oleh karena itu, para peneliti membuat optimasi teknis berikut:

* Membangun dataset skala kecil, secara khusus mengumpulkan deskripsi rinci tentang subjek, menyempurnakan model bahasa, dan cenderung menggambarkan subjek gambar.

  • Membangun dataset deskripsi rinci skala besar, menggambarkan berbagai aspek seperti subjek, latar belakang, warna, teks, dll, dan lebih meningkatkan kualitas deskripsi melalui fine-tuning.
  • Tetapkan aturan seperti panjang dan gaya deskripsi yang dihasilkan untuk mencegah model bahasa menyimpang dari gaya manusia.

Modul Pembuatan Gambar

Modul ini pertama-tama menggunakan VAE untuk mengompresi gambar resolusi tinggi menjadi vektor dimensi rendah untuk mengurangi kesulitan belajar. Teks kemudian dikodekan ke dalam vektor menggunakan T5 Transformer dan disuntikkan ke dalam model difusi melalui lapisan GroupNorm untuk memandu arah pembuatan gambar.

Para peneliti percaya bahwa penambahan model Difusi secara signifikan meningkatkan efek generasi detail gambar. Proses spesifiknya adalah sebagai berikut:

1) Kompresi gambar

Gambar resolusi tinggi pertama kali dikompresi menjadi vektor dimensi rendah oleh model VAE untuk mengurangi kesulitan pembuatan gambar. DALL-E 3 menggunakan 8x downsampling, dan gambar 256px dikompresi menjadi vektor laten ukuran 32x32.

2) Encoder Teks

Gunakan jaringan seperti T5 Transformer untuk menyandikan perintah teks ke dalam vektor untuk injeksi ke dalam model pembuatan gambar.

3)Difusi laten

Ini adalah teknik inti dari pembuatan gambar, yang menguraikan masalah pembuatan gambar menjadi beberapa gangguan skala kecil dari vektor noise, secara bertahap mendekati gambar target. Kuncinya adalah merancang proses maju dan mundur yang sesuai.

  1. Injeksi Teks**

Vektor teks yang dikodekan disuntikkan ke dalam model Difusi Laten melalui lapisan GroupNorm untuk memandu arah pembuatan gambar untuk setiap putaran iterasi.

5) Optimalkan pelatihan

Para peneliti menemukan bahwa melatih model Difusi tambahan pada ruang laten gambar terkompresi dapat lebih meningkatkan kualitas pembuatan detail. Ini adalah salah satu alasan mengapa DALL-E 3 menghasilkan gambar berkualitas lebih baik daripada dua generasi sebelumnya.

Data Evaluasi CLIP

Para peneliti pertama kali menggunakan model CLIP untuk menghitung kesamaan antara gambar yang dihasilkan oleh DALL-E 3 dan teks deskripsi asli, yaitu skor CLIP. Mereka secara acak memilih 4096 deskripsi gambar dari dataset MSCOCO sebagai teks prompt, meminta DALL-E 2, DALL-E 3, dan Stable Diffusion XL untuk menghasilkan gambar yang sesuai, dan kemudian menghitung skor CLIP rata-rata dari ketiganya.

Hasil penelitian menunjukkan bahwa skor CLIP DALL-E 3 mencapai 32,0, mengungguli DALL-E 2 31,4 dan Stable Diffusion XL 30,5.

Ini menunjukkan bahwa gambar yang dihasilkan oleh DALL-E 3 lebih cocok dengan teks deskripsi asli, dan teks memandu pembuatan gambar dengan lebih baik.

Data evaluasi drawbench

Kinerja model dibandingkan pada himpunan data Drawbench. Himpunan data berisi banyak perintah teks rapuh, menguji pemahaman model tentang petunjuk.

Para peneliti menggunakan GPT-V, model bahasa visual, untuk secara otomatis menilai kebenaran gambar yang dihasilkan.

Dalam subtes petunjuk teks pendek, persentase gambar yang dihasilkan dengan benar oleh DALL-E 3 mencapai 70,4%, secara signifikan melebihi 49% dari DALL-E 2 dan 46,9% dari Difusi Stabil XL.

Pada prompt teks panjang, DALL-E 3 juga mendapat 81% benar, terus mengungguli model lain.

** T2I-CompBench Evaluasi **

Melalui subtes korelasi di T2I-CompBench, kemampuan model untuk memproses permintaan kelas kombinasi diselidiki. Dalam tiga tes pengikatan warna, pengikatan bentuk dan pengikatan tekstur, DALL-E 3 menempati peringkat pertama di antara model dalam rasio pengikatan yang benar, sepenuhnya menunjukkan kemampuannya untuk memahami isyarat kombinasi.

Penilaian Manual

Para peneliti juga mengundang manusia untuk menilai sampel yang dihasilkan dalam hal mengikuti isyarat, koherensi gaya, dan sebagainya. Dalam evaluasi 170 tips, DALL-E 3 secara signifikan mengungguli Midjourney dan Stable Diffusion XL.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)