SignalPlus: Pengantar AI Generatif

Penulis Asli: Steven Wang

“Apa yang tidak dapat saya buat, saya tidak mengerti.”

-Richard Feynman

Kata Pengantar

Anda menggunakan Stable Diffusion dan MidJourney untuk membuat gambar yang memukau.

Anda mahir menggunakan ChatGPT dan LLaMa untuk membuat kata-kata yang elegan.

Anda beralih bolak-balik antara MuseNet dan MuseGAN untuk membuat musik pegunungan.

Tidak diragukan lagi, kemampuan manusia yang paling unik adalah menciptakan, tetapi dalam teknologi yang terus berubah saat ini, kita menciptakan dengan menciptakan mesin! Sebuah mesin dapat menggambar karya asli (menggambar), menyusun artikel panjang yang koheren (menulis), menggubah musik merdu (menulis), dan merumuskan strategi kemenangan untuk permainan yang rumit (bermain), diberi gaya. Teknologi ini adalah Kecerdasan Buatan Generatif (Kecerdasan Buatan Generatif, GenAI), sekarang hanyalah awal dari revolusi GenAI, sekarang adalah waktu terbaik untuk mempelajari GenAI.

1. Menghasilkan dan Membedakan Model

GenAI adalah kata kunci, esensi di baliknya adalah model generatif (model generatif), yang merupakan cabang dari pembelajaran mesin, tujuannya adalah melatih model untuk menghasilkan data baru yang serupa dengan kumpulan data yang diberikan.

Misalkan kita memiliki dataset kuda. Pertama, kita dapat melatih model generatif pada kumpulan data ini untuk menangkap aturan yang mengatur hubungan kompleks antara piksel dalam gambar kuda. Model ini kemudian diambil sampelnya untuk membuat gambar realistis kuda yang tidak ada di kumpulan data asli, seperti yang ditunjukkan pada gambar di bawah ini.

SignalPlus: Pengantar AI Generatif

Untuk benar-benar memahami tujuan dan pentingnya model generatif, perlu membandingkannya dengan model diskriminatif. Faktanya, sebagian besar masalah dalam pembelajaran mesin diselesaikan dengan model diskriminatif, lihat contoh berikut.

Misalkan kita memiliki kumpulan data lukisan, beberapa oleh Van Gogh dan beberapa oleh seniman lain. Dengan data yang cukup, kita dapat melatih model diskriminatif untuk memprediksi apakah suatu lukisan adalah karya Van Gogh, seperti yang ditunjukkan pada gambar di bawah ini.

SignalPlus: Pengantar AI Generatif

Saat menggunakan model diskriminatif, setiap contoh dalam training set memiliki label (label), untuk masalah dua kategori di atas, label lukisan Van Gogh biasanya 1, dan label lukisan non-Van Gogh adalah 0. Pada gambar di atas, prediksi probabilitas akhir dari model tersebut adalah 0,83, sehingga sangat mungkin dibuat oleh Van Gogh. Tidak seperti model diskriminatif, model generatif tidak memerlukan contoh untuk memuat label karena tujuannya adalah menghasilkan data baru, bukan memprediksi label untuk data.

Setelah membaca contoh, mari kita gunakan notasi matematika untuk secara tepat mendefinisikan model generatif dan model diskriminatif:

  • Model model diskriminatif P(y|x), diberikan fitur x untuk memperkirakan probabilitas bersyarat dari label y.
  • Model model generasi P(x), secara langsung memperkirakan probabilitas fitur x, dan mengambil sampel dari distribusi probabilitas ini untuk menghasilkan fitur baru.

Perhatikan bahwa meskipun kita dapat membuat model diskriminatif yang sempurna untuk mengidentifikasi lukisan karya Van Gogh, ia tetap tidak tahu cara membuat lukisan yang mirip Van Gogh, itu hanya akan menghasilkan kemungkinan apakah gambar tersebut berasal dari Van Gogh kemungkinan tangan. Dapat dilihat bahwa model generatif jauh lebih sulit daripada model diskriminatif.

2. Hasilkan kerangka model

Sebelum masuk ke kerangka model generatif, mari kita bermain game. Dengan asumsi bahwa titik-titik pada gambar di bawah dihasilkan oleh semacam aturan, kami menyebut aturan ini Pdata, sekarang biarkan Anda menghasilkan x = (x 1, x 2) yang berbeda sehingga titik ini sepertinya Dihasilkan oleh aturan yang sama Pdata.

SignalPlus: Pengantar AI Generatif

Bagaimana Anda menghasilkan titik ini? Anda dapat menggunakan poin yang diberikan untuk menghasilkan model model P dalam pikiran Anda, dan poin yang Anda inginkan dapat dihasilkan pada posisi yang ditempati oleh model ini. Dapat dilihat bahwa model Pmodel merupakan estimasi dari data P. Maka model P yang paling sederhana adalah kotak oranye pada gambar di bawah ini.Poin hanya dapat dihasilkan di dalam kotak, tetapi tidak di luar kotak.

SignalPlus: Pengantar AI Generatif

Untuk menghasilkan titik baru, kita dapat secara acak memilih titik dari kotak, atau lebih tepatnya, sampel dari model distribusi model P. Ini adalah model generatif minimalis. Anda membuat model (kotak oranye) dari data pelatihan (titik hitam), lalu mengambil sampel dari model, berharap titik yang dihasilkan terlihat serupa dengan titik di set pelatihan.

Sekarang kita secara resmi dapat mengusulkan kerangka kerja untuk pembelajaran generatif.

SignalPlus: Pengantar AI Generatif

Mari kita buka distribusi penghasil data nyata Pdata dan lihat bagaimana kerangka kerja di atas dapat diterapkan pada contoh ini. Dari gambar di bawah ini, kita dapat melihat bahwa aturan pembuatan data Pdata adalah bahwa titik-titik tersebut hanya terdistribusi secara merata di darat, dan tidak akan muncul di lautan.

SignalPlus: Pengantar AI Generatif

Jelas, model Pmodel kami adalah penyederhanaan dari aturan Pdata. Meneliti poin A, B, dan C pada gambar di atas dapat membantu kita memahami apakah model model P berhasil meniru aturan Pdata.

  • Titik A tidak sesuai dengan aturan Pdata karena muncul di laut, tetapi dapat dihasilkan oleh model Pmodel karena muncul di dalam kotak oranye.
  • Titik B tidak mungkin dihasilkan oleh model Pmodel karena muncul di luar kotak oranye, tetapi sesuai dengan aturan Pdata karena muncul di darat.
  • Titik C dihasilkan oleh model Pmodel, dan sesuai dengan aturan Pdata.

Contoh ini menunjukkan konsep dasar di balik pemodelan generatif.Meskipun jauh lebih rumit untuk menggunakan model generatif dalam kenyataan, kerangka dasarnya sama.

3. Model generatif pertama

Misalkan Anda adalah Chief Fashion Officer (CFO) sebuah perusahaan dan tugas Anda adalah membuat pakaian baru yang trendi. Tahun ini Anda menerima 50 set data tentang kolokasi mode (seperti yang ditunjukkan di bawah), dan Anda perlu membuat 10 kolokasi mode baru.

SignalPlus: Pengantar AI Generatif

Meskipun Anda adalah chief fashion officer, Anda juga seorang ilmuwan data, jadi Anda memutuskan untuk menggunakan model generatif untuk menyelesaikan masalah ini. Setelah membaca 50 gambar di atas, Anda memutuskan untuk menggunakan lima fitur, jenis aksesori (jenis aksesori), warna pakaian (warna pakaian), jenis pakaian (jenis pakaian), rambut Color (warna rambut) dan hair type (hair type), untuk mendeskripsikan fashion collocation.

10 fitur data gambar teratas adalah sebagai berikut.

SignalPlus: Pengantar AI Generatif

Setiap fitur juga memiliki jumlah nilai eigen yang berbeda:

  • 3 jenis aksesoris (tipe aksesoris):

Kosong, Bulat, Kacamata Hitam

  • 8 warna pakaian:

Hitam, Biru 01, Abu-abu 01, PastelHijau, PastelOrange, Pink, Merah, Putih

  • 4 jenis pakaian:

Hoodie, Keseluruhan, ShirtScoopNeck, ShirtVNeck

  • 6 warna rambut:

Hitam, Pirang, Coklat, PastelPink, Merah, SilverGray

  • 7 jenis rambut:

TanpaRambut,RambutPanjangBun,RambutPanjang,Rambut PanjangLurus,Rambut PendekBergelombang,Rambut PendekRambut PendekFlat,Rambut PendekFrizzle

Dengan cara ini terdapat 3 * 8 * 4 * 6 * 7 = 4032 kombinasi fitur, sehingga dapat dibayangkan bahwa ruang sampel berisi 4032 titik. Dari 50 poin data yang diberikan, terlihat bahwa data P lebih memilih nilai fitur tertentu untuk fitur yang berbeda. Terlihat dari tabel di atas terdapat lebih banyak warna pakaian putih dan warna rambut abu-abu perak pada gambar. Karena kita tidak mengetahui data P yang sebenarnya, kita hanya dapat menggunakan 50 data ini untuk membuat model P sehingga bisa serupa dengan data P.

3.1 Model minimalis

Salah satu metode paling sederhana adalah menetapkan parameter probabilitas ke setiap titik dalam kombinasi fitur 4032, kemudian model tersebut berisi 4031 parameter, karena jumlah semua parameter probabilitas sama dengan 1. Sekarang mari kita periksa 50 data satu per satu, lalu perbarui parameter model **(**θ 1 , θ 2 ,...,θ 4031 ), ekspresi masing-masing parameternya adalah :

SignalPlus: Pengantar AI Generatif

Di antaranya, N adalah jumlah data yang diamati, yaitu 50, dan nj adalah jumlah kombinasi fitur j yang muncul dalam 50 data.

Misalnya, kombinasi fitur (disebut kombinasi 1) dari (LongHairStraight, Red, Round, ShirtScoopNeck, White) muncul dua kali, lalu

SignalPlus: Pengantar AI Generatif

Misalnya, jika kombinasi fitur (disebut kombinasi 2) dari (LongHairStraight, Red, Round, ShirtScoopNeck, Blue 01) tidak muncul, maka

SignalPlus: Pengantar AI Generatif

Menurut aturan di atas, kami menghitung nilai θ untuk semua kombinasi 4031. Tidak sulit untuk melihat bahwa ada banyak nilai θ yang bernilai 0. Yang lebih buruk adalah bahwa kami tidak dapat menghasilkan gambar Tak Terlihat baru ( θ = 0 berarti tidak ada gambar dengan kombinasi fitur yang pernah diamati). Untuk memperbaikinya, cukup tambahkan jumlah fitur, d, ke penyebut dan 1 ke pembilangnya, teknik yang disebut pemulusan Laplace.

SignalPlus: Pengantar AI Generatif

Sekarang, setiap kombinasi (termasuk yang tidak ada dalam kumpulan data asli) memiliki probabilitas pengambilan sampel yang tidak nol, namun ini masih bukan model generatif yang memuaskan karena kemungkinan titik yang tidak ada dalam kumpulan data asli adalah konstanta. Jika kita mencoba menggunakan model seperti itu untuk menghasilkan lukisan Van Gogh, model tersebut akan beroperasi pada dua lukisan berikut dengan probabilitas yang sama:

  1. Reproduksi lukisan asli Van Gogh (bukan dalam kumpulan data asli)
  2. Lukisan yang terbuat dari piksel acak (tidak ada dalam kumpulan data asli)

Ini jelas bukan model generatif yang kami inginkan, kami berharap dapat mempelajari beberapa struktur yang melekat dari data, sehingga dapat meningkatkan bobot probabilitas wilayah dalam ruang sampel yang menurutnya lebih mungkin, alih-alih menempatkan semua bobot probabilitas dalam data set point keberadaan.

3.2 Model yang disederhanakan

Model Naive Bayes (Naive Bayes) dapat sangat mengurangi jumlah kombinasi dari fitur-fitur di atas, dan menurut modelnya, setiap fitur dianggap independen satu sama lain. Kembali ke data di atas, warna rambut seseorang (fitur xj ) tidak berhubungan dengan warna pakaiannya (fitur xk ), dinyatakan dalam ekspresi matematis adalah:

p(xj | xk) = p(xk)

Dengan asumsi ini, kita bisa menghitung

SignalPlus: Pengantar AI Generatif

Model Naive Bayesian menyederhanakan masalah asli "estimasi probabilitas untuk setiap kombinasi fitur" menjadi "estimasi probabilitas untuk setiap fitur". Ternyata kita perlu menggunakan 4031 ( 3 * 8 * 4 * 6 * 7) parameter , sekarang hanya diperlukan 23 ( 3 + 8 + 4 + 6 + 7) parameter, dan ekspresi dari setiap parameter adalah:

SignalPlus: Pengantar AI Generatif

Di antara mereka, N adalah jumlah data yang diamati, yaitu, 50, n*kl adalah jumlah fitur kth dan ****l ***nilai eigen ke-di bawah angkanya.

Melalui statistik dari 50 data, tabel berikut memberikan nilai parameter model Naive Bayesian.

SignalPlus: Pengantar AI Generatif

Untuk menghitung probabilitas suatu model menghasilkan fitur data, cukup gandakan probabilitas pada tabel di atas, misalnya:

SignalPlus: Pengantar AI Generatif

Kombinasi di atas tidak muncul dalam dataset asli, tetapi model masih memberikan probabilitas bukan nol, sehingga masih dapat dihasilkan oleh model. Dengan demikian, model Naive Bayesian dapat mempelajari beberapa struktur dari data dan menggunakannya untuk menghasilkan contoh baru yang tidak terlihat di kumpulan data asli. Gambar di bawah ini adalah gambar 10 kolokasi fashion baru yang dihasilkan oleh model.

SignalPlus: Pengantar AI Generatif

Dalam soal ini, hanya 5 fitur yang termasuk dalam data berdimensi rendah. Masuk akal jika model Naive Bayesian mengasumsikan bahwa fitur tersebut tidak bergantung satu sama lain, sehingga hasil yang dihasilkan oleh model tersebut tidak buruk. Mari kita lihat contoh model runtuh.

4. Kesulitan dalam membuat model

4.1 Data dimensi tinggi

Sebagai chief fashion officer, Anda telah berhasil membuat 10 kolokasi mode baru dengan Naive Bayesian. Anda sangat yakin bahwa model Anda tidak terkalahkan sampai Anda menemukan kumpulan data berikut.

SignalPlus: Pengantar AI Generatif

Kumpulan data tidak lagi diwakili oleh lima fitur, tetapi diwakili oleh 32* 32 = 1024 piksel, setiap nilai piksel dapat mencapai salah satu dari 0 hingga 255, 0 berarti putih, 255 berarti hitam. Tabel berikut mencantumkan nilai piksel 1 hingga 5 untuk 10 gambar pertama.

SignalPlus: Pengantar AI Generatif

Gunakan model yang sama untuk menghasilkan 10 set kolokasi mode baru. Berikut ini adalah hasil pembuatan model. Masing-masing jelek dan mirip, dan fitur yang berbeda tidak dapat dibedakan. Mengapa demikian?

SignalPlus: Pengantar AI Generatif

Pertama-tama, karena model Naive Bayesian mengambil sampel piksel secara independen, piksel yang berdekatan sebenarnya sangat mirip. Untuk pakaian, sebenarnya pikselnya harus kurang lebih sama, tetapi modelnya diambil sampelnya secara acak, sehingga pakaian pada gambar di atas semuanya berwarna. Kedua, ada terlalu banyak kemungkinan dalam ruang sampel berdimensi tinggi, hanya sebagian kecil yang dapat diidentifikasi. Jika model Naive Bayesian berurusan langsung dengan nilai piksel yang sangat berkorelasi, kemungkinan untuk menemukan kombinasi nilai yang memuaskan sangat kecil.

Singkatnya, untuk ruang sampel dengan dimensi rendah dan korelasi fitur yang rendah, efek Naive Bayesian sangat baik melalui pengambilan sampel independen; tetapi untuk ruang sampel dengan dimensi tinggi dan korelasi fitur yang tinggi, piksel pengambilan sampel independen digunakan untuk menemukan wajah manusia yang efektif. hampir tidak mungkin.

Contoh ini menyoroti dua kesulitan yang harus diatasi oleh model generatif agar berhasil:

  1. Bagaimana model menangani dependensi bersyarat antara fitur berdimensi tinggi?
  2. Bagaimana model menemukan proporsi pengamatan yang sangat kecil yang memenuhi syarat dari ruang sampel berdimensi tinggi?

Agar model generatif berhasil dalam ruang sampel berdimensi tinggi dan berkorelasi tinggi, model pembelajaran mendalam harus digunakan. Kami membutuhkan model yang dapat menyimpulkan struktur yang relevan dari data, daripada diberi tahu asumsi mana yang harus dibuat sebelumnya. Pembelajaran mendalam dapat membentuk fiturnya sendiri dalam ruang berdimensi rendah, dan ini adalah bentuk pembelajaran representasi (pembelajaran representasi).

4.2 Pembelajaran Representasi

Pembelajaran representasi adalah mempelajari makna dari representasi data berdimensi tinggi.

Misalkan Anda pergi menemui seorang netizen yang belum pernah bertemu, dan banyak orang yang tidak dapat menemukannya di tempat pertemuan, maka Anda memanggilnya untuk menggambarkan penampilan Anda. Saya yakin Anda tidak akan mengatakan bahwa warna piksel 1 pada gambar Anda adalah hitam, warna piksel 2 adalah hitam muda, warna piksel 3 adalah abu-abu, dan seterusnya. Sebaliknya, Anda akan berpikir bahwa netizen akan memiliki pemahaman umum tentang penampilan orang biasa, dan kemudian memberikan pemahaman tersebut untuk mendeskripsikan ciri-ciri kelompok piksel, misalnya Anda memiliki rambut pendek hitam dan indah, mengenakan sepasang gelas emas dan sebagainya. Biasanya dengan tidak lebih dari 10 deskripsi seperti itu, seorang netizen dapat memunculkan gambaran tentang Anda dari benaknya.Gambar tersebut mungkin kasar, tetapi tidak menghalangi netizen untuk menemukan Anda di antara ratusan orang, meskipun dia belum pernah melihat Anda.

Inilah ide inti di balik pembelajaran representasi, alih-alih mencoba memodelkan secara langsung ruang sampel berdimensi tinggi (ruang sampel berdimensi tinggi), tetapi menggunakan beberapa ruang laten berdimensi rendah (ruang laten berdimensi rendah). space ) untuk mendeskripsikan setiap observasi dalam set pelatihan, lalu mempelajari fungsi pemetaan (fungsi pemetaan), yang dapat mengambil titik di ruang laten dan memetakannya ke ruang sampel asli. Dengan kata lain, setiap titik di ruang laten merepresentasikan fitur data berdimensi tinggi.

Jika kata-kata di atas tidak mudah dipahami, silakan lihat kumpulan pelatihan di bawah ini yang terdiri dari beberapa gambar jar skala abu-abu.

SignalPlus: Pengantar AI Generatif

Tidaklah sulit untuk melihat bahwa toples-toples ini hanya dapat dijelaskan dengan dua karakteristik: tinggi dan lebar. Oleh karena itu, kita dapat mengubah ruang piksel gambar berdimensi tinggi menjadi ruang laten dua dimensi, seperti yang ditunjukkan pada gambar di bawah ini. Dengan cara ini kita dapat mengambil sampel (titik biru) dari ruang laten dan mengubahnya menjadi gambar melalui fungsi pemetaan f.

SignalPlus: Pengantar AI Generatif

Tidak mudah bagi mesin untuk menyadari bahwa kumpulan data asli dapat diwakili oleh ruang laten yang lebih sederhana. Pertama, mesin perlu menentukan bahwa tinggi dan lebar adalah dua dimensi ruang laten yang paling menggambarkan kumpulan data, dan kemudian mempelajarinya fungsi pemetaan f dapat mengambil titik di ruang ini dan memetakannya ke peta kaleng skala abu-abu. Pembelajaran mendalam memungkinkan kita melatih mesin untuk menemukan hubungan kompleks ini tanpa bimbingan manusia.

5. Klasifikasi model yang dihasilkan

Semua jenis model generatif pada akhirnya bertujuan untuk menyelesaikan tugas yang sama, tetapi mereka semua fungsi kerapatan model dengan cara yang sedikit berbeda, dan umumnya terbagi dalam dua kategori:

  • memodelkan secara eksplisit (memodelkan secara eksplisit) fungsi kepadatan,

Tapi entah bagaimana membatasi model untuk menghitung fungsi kerapatan, seperti normalisasi model FLOW (normalisasi model FLOW)

Namun untuk memperkirakan fungsi densitas, seperti variational autoencoder (iational autoencoder, VAE) dan diffusion model (diffusion model)

  • Pemodelan implisit (pemodelan implisit) fungsi kepadatan, melalui proses stokastik yang secara langsung menghasilkan data. Misalnya, Jaringan permusuhan generatif (jaringan permusuhan generatif, GAN)

SignalPlus: Pengantar AI Generatif

Ringkas

Kecerdasan buatan generatif (GenAI) adalah jenis kecerdasan buatan yang dapat digunakan untuk membuat konten dan ide baru, termasuk teks, gambar, video, dan musik. Seperti semua kecerdasan buatan, GenAI adalah model super besar yang dilatih sebelumnya oleh model pembelajaran mendalam berdasarkan sejumlah besar data, sering disebut foundation model (FM). Dengan GenAI, kita dapat menggambar lebih banyak gambar keren, menulis teks yang lebih indah, dan membuat musik yang lebih mengharukan, tetapi langkah pertama mengharuskan kita untuk memahami bagaimana GenAI menciptakan hal-hal baru, seperti yang dikatakan kepala artikel Richard Feynman "Saya tidak akan mengerti apa yang tidak bisa saya buat".

Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)