Terobosan baru 2D ke 3D! Analisis mendalam tentang teknologi AIGC, sebuah artikel untuk memahami sejarah dan situasi terkini dari pembuatan data 3D

2023-07-28 05:49:47

Penulis: Chengxi Editor: Manman Zhou

Sumber: Ras Kelinci Silikon

Dalam 18 bulan terakhir, AI Content Generation (AIGC) tidak diragukan lagi menjadi topik terpanas dan terpanas di lingkaran modal ventura teknologi Silicon Valley.

DALL-E (datang Januari 2021)

Midjourney (datang Juli 2022)

Difusi Stabil (datang Agustus 2022)

Jenis alat generatif 2D ini dapat mengonversi perintah teks ( ) menjadi gambar artistik hanya dalam beberapa detik. Dengan evolusi dan kemajuan alat AIGC 2D seperti itu, alur kerja kreatif seniman, desainer, dan studio game mengalami revolusi dengan cepat.

Di manakah terobosan AIGC selanjutnya? Banyak investor dan veteran industri telah memberikan prediksi - pembuatan data 3D.

Kami melihat bahwa AIGC 3D sedang melalui tahap di mana AIGC 2D telah dikembangkan. Pada artikel ini, kita akan membahas terobosan baru AIGC di bidang data 3D secara lebih mendalam, dan menantikan bagaimana alat AI generatif dapat meningkatkan efisiensi dan inovasi pembuatan data 3D.

01 Tinjauan perkembangan pesat AIGC 2D

Pengembangan AIGC 2D dapat diringkas secara singkat menjadi tiga tahap pengembangan berikut:

Tahap 1: Pengeditan Gambar Cerdas

Pada awal 2014, dengan diperkenalkannya jaringan konfrontasi generatif (GAN, kerja tindak lanjut khas StyleGAN) dan autoencoder variasional (VAE, kerja tindak lanjut khas VQVAE, alignDRAW), model AI mulai banyak digunakan dalam generasi cerdas. gambar 2D dan pengeditan. Model AI awal terutama digunakan untuk mempelajari beberapa distribusi gambar yang relatif sederhana atau melakukan beberapa pengeditan gambar. Aplikasi umum meliputi: pembuatan wajah, transfer gaya gambar, resolusi super gambar, penyelesaian gambar, dan pengeditan gambar yang dapat dikontrol.

Tetapi jaringan pembuatan/pengeditan gambar awal memiliki interaksi multimodal yang sangat terbatas dengan teks. Selain itu, jaringan GAN biasanya sulit untuk dilatih, dan sering menghadapi masalah seperti keruntuhan mode dan ketidakstabilan.Data yang dihasilkan biasanya buruk dalam keragaman, dan kapasitas model juga menentukan batas atas skala data yang tersedia; VAE sering menemui The gambar yang dihasilkan buram dan masalah lainnya.

Tahap kedua: lompatan model grafik Vincent

Dengan terobosan teknologi pembangkitan difusi (difusi), kemunculan dan pengembangan set data multi-modal skala besar (seperti set data LAION) dan model representasi multi-modal (seperti model CLIP yang dirilis oleh OpenAI), lapangan pembuatan gambar 2D akan dilakukan pada tahun 2021. Kemajuan yang signifikan telah dicapai. Model pembuatan gambar mulai berinteraksi secara mendalam dengan teks, dan model grafik Vincent skala besar melakukan debut yang luar biasa.

Saat OpenAI merilis DALL-E di awal tahun 2021, teknologi AIGC akan benar-benar mulai menunjukkan potensi komersial yang besar. DALL-E dapat menghasilkan gambar yang realistis dan kompleks dari isyarat teks arbitrer dengan tingkat keberhasilan yang jauh lebih baik. Dalam setahun, sejumlah besar model grafik Vincent segera menyusul, termasuk DALL-E 2 (dimutakhirkan pada April 2022) dan Imagen (dirilis oleh Google pada Mei 2022). Meskipun teknologi ini belum efisien dalam membantu pencipta seni menghasilkan konten yang dapat langsung diproduksi, mereka telah menarik perhatian publik dan merangsang kreativitas dan potensi produksi seniman, desainer, dan studio game.

Fase Tiga: Dari Menakjubkan Menjadi Produktif

Dengan peningkatan detail teknis dan iterasi optimasi teknik, AIGC 2D telah berkembang pesat. Pada paruh kedua tahun 2022, model seperti Midjourney dan Stable Diffusion telah menjadi alat AIGC yang populer. Didorong oleh kumpulan data pelatihan berskala besar, kinerja teknik AIGC dalam aplikasi dunia nyata telah menguntungkan pengadopsi awal di industri media, periklanan, dan game. Selain itu, munculnya dan pengembangan teknologi fine-tuning model besar (seperti ControlNet dan LoRA) juga memungkinkan orang untuk "menyesuaikan" menyesuaikan dan memperluas model besar AI sesuai dengan kebutuhan aktual dan sejumlah kecil data pelatihan, sehingga dapat lebih baik beradaptasi dengan aplikasi spesifik yang berbeda (Seperti gaya dua dimensi, pembuatan logo, pembuatan kode QR, dll.).

Pembuatan ide dan pembuatan prototipe dengan alat AIGC sekarang membutuhkan waktu berjam-jam atau kurang dalam banyak kasus, dibandingkan dengan hari atau minggu yang biasanya diperlukan. Sementara sebagian besar desainer grafis profesional masih memodifikasi atau membuat ulang sketsa yang dihasilkan AI, blog pribadi atau iklan semakin umum untuk menggunakan gambar yang dihasilkan AI secara langsung.

Efek berbeda dari konversi alignDRAW, DALL-E 2, dan teks Midjourney ke gambar.

Selain konversi teks-ke-gambar, AIGC 2D terus memiliki perkembangan yang lebih baru. Misalnya, Midjourney dan startup lain seperti Runway dan Phenaki sedang mengembangkan kemampuan text-to-video. Selain itu, Zero-1-to-3 telah mengusulkan metode untuk menghasilkan gambar yang sesuai dari sudut pandang yang berbeda dari satu gambar 2D dari suatu objek.

Karena meningkatnya permintaan untuk data 3D di industri game dan robotika, penelitian mutakhir tentang AIGC secara bertahap beralih ke pembuatan data 3D. Kami mengharapkan pola pengembangan serupa untuk 3D AIGC.

Momen "DALL-E" AIGC 3D

Terobosan teknologi baru-baru ini di bidang 3D memberi tahu kita bahwa momen "DALL-E" dari 3D AIGC akan datang!

Dari DreamFields pada akhir 2021 hingga DreamFusion dan Magic3D pada paruh kedua 2022, dan kemudian ke ProlificDreamer pada Mei tahun ini, berkat pengembangan domain multimodal dan model grafik Vincent, banyak terobosan telah dibuat dalam model 3D akademik Wensheng. Beberapa metode mampu menghasilkan model 3D berkualitas tinggi dari teks masukan.

Namun, sebagian besar eksplorasi awal ini perlu mengoptimalkan representasi 3D dari awal saat membuat setiap model 3D, sehingga perspektif 2D yang sesuai dengan representasi 3D memenuhi ekspektasi input dan model sebelumnya. Karena pengoptimalan semacam itu biasanya memerlukan puluhan ribu iterasi, pengoptimalan tersebut seringkali memakan waktu. Misalnya, membuat model jaring 3D tunggal dapat memakan waktu hingga 40 menit di Magic3D dan berjam-jam di ProlificDreamer. Selain itu, salah satu tantangan besar generasi 3D adalah model 3D harus memiliki konsistensi bentuk objek dari berbagai sudut. Metode 3D AIGC yang ada seringkali menemui Janus Problem yaitu objek 3D yang dihasilkan oleh AI memiliki multiple head atau multiple face.

Masalah Janus karena kurangnya konsistensi bentuk 3D di ProlificDreamer. Di sebelah kiri adalah pandangan depan dari bluebird yang tampak normal. Di sebelah kanan adalah gambar membingungkan yang menggambarkan seekor burung dengan dua wajah.

Namun di sisi lain, beberapa tim mencoba menerobos paradigma generasi berbasis pengoptimalan yang ada, dan menghasilkan model 3D melalui rute teknis prediksi maju tunggal, yang sangat meningkatkan kecepatan dan akurasi generasi 3D. Metode ini termasuk Point-E dan Shap-E (dirilis oleh OpenAI pada tahun 2022 dan 2023) dan One-2–3–45 (dirilis oleh UC San Diego pada tahun 2023). Catatan khusus adalah One-2–3–45, dirilis pada bulan lalu, mampu menghasilkan mesh 3D berkualitas tinggi dan konsisten dari gambar 2D hanya dalam 45 detik!

Analisis Komparatif Gambar Tunggal ke Metode 3D Mesh. Dari kiri ke kanan, kita dapat mengamati bahwa waktu pemrosesan turun drastis dari satu jam lebih menjadi kurang dari satu menit. Point-E, Shap-E, dan One-2–3–45 semuanya unggul dalam kecepatan dan akurasi.

Terobosan teknologi terbaru di bidang 3D AIGC ini tidak hanya meningkatkan kecepatan dan kualitas generasi, tetapi juga membuat input pengguna lebih fleksibel. Pengguna dapat memasukkan melalui perintah teks, atau menghasilkan model 3D yang diinginkan melalui gambar 2D tunggal dengan lebih banyak informasi. Ini sangat memperluas kemungkinan AIGC 3D dalam hal aplikasi komersial.

AI merevolusi proses produksi 3D

Pertama, mari kita pahami alur kerja yang harus dilalui oleh desainer 3D tradisional untuk membuat model 3D:

Sketsa konsep: Desainer seni konsep bertukar pikiran dan mengidealkan maket yang diperlukan berdasarkan input klien dan referensi visual.
Pembuatan Prototipe 3D: Desainer model menggunakan perangkat lunak profesional untuk membuat bentuk dasar model dan beralih berdasarkan umpan balik pelanggan.
Penyempurnaan model: Tambahkan detail, warna, tekstur, dan properti animasi (seperti rigging, pencahayaan, dll.) ke model 3D kasar.
Finalisasi model: Desainer menggunakan perangkat lunak pengedit gambar untuk menyempurnakan rendering akhir, menyesuaikan warna, menambahkan efek, atau melakukan sintesis elemen.

Proses ini biasanya memakan waktu beberapa minggu, bahkan mungkin lebih lama jika melibatkan animasi. Namun, setiap langkah ini berpotensi dibuat lebih cepat dengan bantuan AI.

Generator gambar multi-tampilan yang kuat (misalnya, Zero-1–to-3 berdasarkan Stable Diffusion dan Midjourney) memfasilitasi brainstorming kreatif dan menghasilkan sketsa gambar multi-tampilan.
Teknologi Text-to-3D atau image-to-3D (misalnya, One-2–3–45 atau Shap-E) dapat menghasilkan beberapa prototipe 3D dalam hitungan menit, memberikan desainer berbagai pilihan.
Menggunakan pengoptimalan model 3D (mis., Magic 3D atau ProlificDreamer), prototipe yang dipilih dapat disempurnakan secara otomatis dalam beberapa jam.
Setelah model yang telah disempurnakan siap, desainer 3D dapat merancang lebih lanjut dan menyelesaikan model fidelitas tinggi.

Perbandingan Alur Kerja Produksi 3D Tradisional dan AI-Driven

Akankah 3D AIGC menggantikan manusia?

Kesimpulan kami adalah belum. Orang masih merupakan tautan yang sangat diperlukan dalam tautan 3D AIGC.

Meskipun teknologi pembuatan model 3D yang disebutkan di atas dapat memiliki banyak aplikasi dalam robotika, mengemudi otonom, dan game 3D, proses produksi saat ini masih belum dapat memenuhi berbagai aplikasi.

Untuk tujuan ini, Silicon Rabbit Jun mewawancarai Profesor Su Hao dari University of California, San Diego. Ia adalah pakar terkemuka di bidang 3D Deep Learning dan Embodied AI. Salah satu penulis dari –3–45 model. Profesor Su Hao percaya bahwa hambatan utama dari model generasi 3D saat ini adalah kurangnya kumpulan data 3D berkualitas tinggi dalam jumlah besar. Kumpulan data 3D yang umum digunakan saat ini seperti ShapeNet (sekitar 52K kisi 3D) atau Objaverse (sekitar 800K model 3D) berisi model yang perlu ditingkatkan dalam hal kuantitas dan kualitas detail. Terutama dibandingkan dengan kumpulan data besar dalam domain 2D (mis., LAION-5B), volume datanya masih jauh dari cukup untuk melatih model 3D besar.

Profesor Su Hao pernah belajar di bawah Profesor Leonidas Guibas, pelopor komputasi geometris dan anggota American Academy of Sciences, dan berpartisipasi dalam proyek ImageNet yang dipimpin oleh Profesor Feifei Li sebagai kontributor awal. Terinspirasi oleh mereka, Profesor Su Hao menekankan peran kunci dari kumpulan data 3D yang luas dalam memajukan teknologi, dan meletakkan dasar bagi kemunculan dan kemakmuran bidang pembelajaran mendalam 3D.

Selain itu, model 3D jauh lebih kompleks daripada gambar 2D, misalnya:

Struktur bagian: Game atau aplikasi kembar digital memerlukan bagian terstruktur dari objek 3D (mis., PartNet), bukan satu mesh 3D;
Sambungan dan pengikatan: properti utama untuk berinteraksi dengan objek 3D;
Tekstur dan material: seperti reflektansi, koefisien gesekan permukaan, distribusi densitas, modulus Young dan sifat kunci lainnya yang mendukung interaksi;
Operasi dan manipulasi: Izinkan desainer untuk berinteraksi dan memanipulasi model 3D secara lebih efektif.

Dan poin-poin di atas adalah di mana keahlian manusia dapat terus memainkan peran penting.

Profesor Su Hao percaya bahwa di masa depan, pembuatan data 3D berbasis AI harus memiliki karakteristik sebagai berikut:

Mendukung pembuatan model 3D yang mendukung aplikasi interaktif Interaksi ini meliputi interaksi fisik antara objek (seperti tabrakan) dan interaksi antara orang dan objek (metode interaksi fisik dan non-fisik), membuat data 3D dalam game , metaverse, simulasi fisik dan skenario lainnya dapat digunakan secara luas;
Mendukung pembuatan konten 3D berbantuan AI, menjadikan pemodelan lebih efisien;
Mendukung proses pembuatan Human-in-the-loop, dan menggunakan bakat artistik manusia untuk meningkatkan kualitas data yang dihasilkan, sehingga semakin meningkatkan kinerja pemodelan dan membentuk efek roda gila data loop tertutup.

Mirip dengan perkembangan teknologi yang luar biasa seperti DALL-E dan ChatGPT dalam 18 bulan terakhir, kami sangat yakin bahwa di bidang 3D AIGC, inovasi dan aplikasinya sangat mungkin melebihi harapan kami, dan Silicon Rabbit akan terus memperdalam Eksplorasi dan keluaran.

Lihat Asli

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.