2D'den 3D'ye yeni atılım! AIGC teknolojisinin derinlemesine analizi, 3B veri üretiminin geçmişini ve mevcut durumunu anlamaya yönelik bir makale

Yazar: Chengxi Editör: Manman Zhou

Kaynak: Silikon Tavşan Yarışı

Son 18 ayda, AI İçerik Üretimi (AIGC), şüphesiz Silikon Vadisi teknoloji girişim sermayesi çemberindeki en sıcak ve en sıcak konu.

DALL-E (Ocak 2021'de geliyor)

Midjourney (Temmuz 2022'de geliyor)

Stabil Difüzyon (Ağustos 2022'de geliyor)

Bu tür 2B üretken araç, metin istemlerini ( ) yalnızca birkaç saniye içinde sanatsal görüntülere dönüştürebilir. Bu tür 2B AIGC araçlarının gelişmesi ve ilerlemesiyle sanatçıların, tasarımcıların ve oyun stüdyolarının yaratıcı iş akışlarında hızla devrim yaşanıyor.

AIGC'nin bir sonraki atılımı nerede? Birçok yatırımcı ve endüstri gazisi tahminlerde bulundu - 3D veri üretimi.

3D AIGC'nin, 2D AIGC'nin geliştirildiği bir aşamadan geçtiğini fark ettik. Bu makalede, AIGC'nin 3D veri alanındaki yeni atılımlarını daha derinlemesine tartışacağız ve üretken AI araçlarının 3D veri üretiminin verimliliğini ve yenilikçiliğini nasıl iyileştirebileceğini dört gözle bekleyeceğiz.

01 2D AIGC'nin hızlı gelişiminin incelemesi

2D AIGC'nin gelişimi, aşağıdaki üç geliştirme aşamasına kısaca özetlenebilir:

Aşama 1: Akıllı Görüntü Düzenleme

2014 gibi erken bir tarihte, üretken karşılaştırma ağının (GAN, tipik takip çalışması StyleGAN) ve varyasyonel otomatik kodlayıcının (VAE, tipik takip çalışması VQVAE, alignDRAW) piyasaya sürülmesiyle, AI modelleri akıllı nesilde yaygın olarak kullanılmaya başlandı. 2D resimler ve düzenleme. İlk yapay zeka modelleri temel olarak bazı nispeten basit görüntü dağılımlarını öğrenmek veya bazı görüntü düzenlemelerini gerçekleştirmek için kullanılıyordu. Yaygın uygulamalar şunları içerir: yüz oluşturma, görüntü stili aktarımı, görüntü süper çözünürlüğü, görüntü tamamlama ve kontrol edilebilir görüntü düzenleme.

Ancak erken görüntü oluşturma/düzenleme ağları, metinle çok sınırlı çok modlu etkileşime sahiptir. Ek olarak, GAN ağlarının eğitilmesi genellikle zordur ve genellikle mod çökmesi ve istikrarsızlık gibi sorunlarla karşılaşır. Üretilen veriler genellikle çeşitlilik açısından zayıftır ve model kapasitesi ayrıca mevcut veri ölçeğinin üst sınırını da belirler; VAE genellikle oluşturulan görüntü bulanık ve diğer sorunlar.

İkinci aşama: Vincent'ın grafik modelinin sıçraması

Difüzyon oluşturma (difüzyon) teknolojisindeki atılım, büyük ölçekli çok modlu veri kümelerinin (LAION veri seti gibi) ve çok modlu temsil modellerinin (OpenAI tarafından yayınlanan CLIP modeli gibi) ortaya çıkması ve geliştirilmesiyle, alan 2D görüntü üretimi 2021'de olacak. Önemli ilerleme kaydedildi. Görüntü oluşturma modeli metinle derinlemesine etkileşime girmeye başladı ve büyük ölçekli Vincent grafik modeli harika bir çıkış yaptı.

OpenAI, 2021'in başlarında DALL-E'yi piyasaya sürdüğünde, AIGC teknolojisi gerçekten büyük bir ticari potansiyel göstermeye başlayacak. DALL-E, büyük ölçüde geliştirilmiş bir başarı oranıyla rastgele metin ipuçlarından gerçekçi ve karmaşık görüntüler oluşturabilir. Bir yıl içinde, DALL-E 2 (Nisan 2022'de yükseltildi) ve Imagen (Google tarafından Mayıs 2022'de piyasaya sürüldü) dahil olmak üzere çok sayıda Vincent grafik modeli hızla takip edildi. Bu teknolojiler, sanat yaratıcılarının doğrudan üretime konulabilecek içerik üretmelerine yardımcı olma konusunda henüz etkili olmasa da, halkın dikkatini çekmiş ve sanatçıların, tasarımcıların ve oyun stüdyolarının yaratıcılığını ve üretim potansiyelini harekete geçirmiştir.

Üçüncü Aşama: Harikadan Üretkenliğe

Teknik detayların iyileştirilmesi ve mühendislik optimizasyonunun yinelenmesiyle 2D AIGC hızla gelişti. 2022'nin ikinci yarısı itibarıyla Midjourney ve Stable Diffusion gibi modeller, popüler AIGC araçları haline geldi. Büyük ölçekli eğitim veri kümelerinden güç alan AIGC tekniklerinin gerçek dünya uygulamalarındaki performansı, medya, reklamcılık ve oyun sektörlerindeki ilk uygulayıcılara fayda sağlamıştır. Ek olarak, büyük model ince ayar teknolojilerinin (ControlNet ve LoRA gibi) ortaya çıkması ve geliştirilmesi, insanların yapay zeka büyük modellerini gerçek ihtiyaçlarına ve az miktarda eğitim verisine göre "özelleştirmesine" ve genişletmesine olanak tanır. farklı özel uygulamalara daha iyi uyum sağlar (iki boyutlu stilizasyon, logo oluşturma, QR kodu oluşturma vb.).

AIGC araçlarıyla fikir oluşturma ve prototip oluşturma, eskiden günler veya haftalar süren birçok durumda artık saatler veya daha kısa sürüyor. Çoğu profesyonel grafik tasarımcı yapay zeka tarafından oluşturulan eskizleri değiştirmeye veya yeniden oluşturmaya devam ederken, kişisel blogların veya reklamların doğrudan yapay zeka tarafından oluşturulan görüntüleri kullanması giderek daha yaygın hale geliyor.

alignDRAW, DALL-E 2 ve Midjourney metinden görüntüye dönüştürmenin farklı etkileri.

Metinden resme dönüştürmeye ek olarak, 2D AIGC daha yeni gelişmelere sahip olmaya devam ediyor. Örneğin, Midjourney ve Runway ve Phenaki gibi diğer girişimler, metinden videoya dönüştürme yetenekleri geliştiriyor. Ek olarak, Zero-1-to-3, bir nesnenin tek bir 2D görüntüsünden farklı görüş açılarından karşılık gelen resimlerin üretilmesi için bir yöntem önermiştir.

Oyun ve robotik endüstrilerinde 3B verilere yönelik artan talep nedeniyle, AIGC ile ilgili mevcut en son araştırma, kademeli olarak 3B veri üretimine geçiyor. 3D AIGC için de benzer bir geliştirme modeli bekliyoruz.

3D AIGC'nin "DALL-E" anı

3D alanındaki son teknolojik gelişmeler bize 3D AIGC'nin "DALL-E" anının geldiğini söylüyor!

2021'in sonundaki DreamFields'ten 2022'nin ikinci yarısında DreamFusion ve Magic3D'ye ve ardından bu yıl Mayıs ayında ProlificDreamer'a, multimodal alanların ve Vincent grafik modellerinin geliştirilmesi sayesinde, akademik 3D modelinde birçok atılım yapıldı. Wensheng. Çeşitli yöntemler, giriş metninden yüksek kaliteli 3B modeller üretebilir.

Bununla birlikte, bu ilk keşiflerin çoğunun, her bir 3B modeli oluştururken bir 3B temsili sıfırdan optimize etmesi gerekir, böylece 3B temsile karşılık gelen 2B perspektifler, girdi ve önceki modellerin beklentilerini karşılar. Bu tür optimizasyonlar tipik olarak on binlerce yineleme gerektirdiğinden, genellikle zaman alıcıdır. Örneğin, tek bir 3B ağ modeli oluşturmak Magic3D'de 40 dakikaya, ProlificDreamer'da ise saatlere kadar sürebilir. Ek olarak, 3B oluşturmanın en büyük zorluklarından biri, 3B modelin nesnenin şeklinin farklı açılardan tutarlı olması gerektiğidir. Mevcut 3D AIGC yöntemleri genellikle Janus Problemi ile karşılaşır, yani AI tarafından üretilen 3D nesnelerin birden fazla kafası veya birden çok yüzü vardır.

ProlificDreamer'da 3B şekil tutarlılığının olmaması nedeniyle Janus sorunu. Solda, görünüşte normal bir mavi kuşun önden görünümü var. Sağda iki yüzlü bir kuşu tasvir eden kafa karıştırıcı bir resim var.

Ancak öte yandan bazı ekipler, mevcut optimizasyona dayalı üretim paradigmasını kırmaya ve tek bir ileri tahmin teknik yolu aracılığıyla 3B modeller oluşturmaya çalışıyor, bu da 3B oluşturmanın hızını ve doğruluğunu büyük ölçüde artırıyor. Bu yöntemler arasında Point-E ve Shap-E (sırasıyla 2022 ve 2023'te OpenAI tarafından piyasaya sürüldü) ve One-2–3–45 (2023'te UC San Diego tarafından piyasaya sürüldü) bulunmaktadır. Geçen ay piyasaya sürülen One-2–3–45, 2D görüntüden yalnızca 45 saniyede yüksek kaliteli ve tutarlı bir 3D ağ oluşturabiliyor!

Tek Görüntü ile 3B Ağ Yöntemlerinin Karşılaştırmalı Analizi. Soldan sağa, işlem süresinin bir saatten fazla bir süreden bir dakikanın altına düştüğünü gözlemleyebiliriz. Point-E, Shap-E ve One-2–3–45'in tümü hız ve doğrulukta mükemmeldir.

3D AIGC alanındaki bu en son teknolojik atılımlar, yalnızca üretim hızını ve kalitesini büyük ölçüde iyileştirmekle kalmaz, aynı zamanda kullanıcı girişini daha esnek hale getirir. Kullanıcılar, metin istemleri aracılığıyla giriş yapabilir veya daha fazla bilgi içeren tek bir 2B görüntü aracılığıyla istenen 3B modeli oluşturabilir. Bu, ticari uygulamalar açısından 3D AIGC'nin olanaklarını büyük ölçüde genişletir.

Yapay zeka, 3B üretim sürecinde devrim yaratıyor

Öncelikle, geleneksel 3B tasarımcıların 3B modeller oluşturmak için geçmesi gereken iş akışını anlayalım:

  1. Konsept eskizleri: Konsept sanat tasarımcıları, müşteri girdisine ve görsel referanslara dayalı olarak gerekli örnekler üzerinde beyin fırtınası yapar ve fikir verir.

  2. 3B Prototipleme: Model tasarımcıları, modelin temel şeklini oluşturmak ve müşteri geri bildirimlerine göre yinelemek için profesyonel yazılım kullanır.

  3. Model iyileştirme: Kaba 3B modele ayrıntı, renk, doku ve animasyon özellikleri (arma, aydınlatma vb.) ekleyin.

  4. Model sonlandırma: Tasarımcılar, son işlemeyi geliştirmek, renkleri ayarlamak, efektler eklemek veya öğe sentezi gerçekleştirmek için görüntü düzenleme yazılımı kullanır.

Bu süreç genellikle birkaç hafta sürer, animasyon söz konusuysa muhtemelen daha da uzun sürer. Ancak, bu adımların her biri yapay zekanın yardımıyla potansiyel olarak daha hızlı yapılabilir.

  1. Güçlü bir çoklu görüntü oluşturucu (örn., Stable Difüzyon ve Midjourney tabanlı Sıfır-1–3) yaratıcı beyin fırtınasını kolaylaştırır ve çoklu görüntü eskizleri oluşturur.

  2. Metinden 3B'ye veya görüntüden 3B'ye teknolojiler (örneğin, One-2–3–45 veya Shap-E), tasarımcılara çok çeşitli seçenekler sunarak dakikalar içinde birden çok 3B prototip oluşturabilir.

  3. 3B model optimizasyonu kullanılarak (örn. Magic 3D veya ProlificDreamer), seçilen prototipler saatler içinde otomatik olarak geliştirilebilir.

  4. İyileştirilmiş model hazır olduğunda, 3B tasarımcı yüksek kaliteli modeli daha fazla tasarlayabilir ve tamamlayabilir.

Geleneksel ve Yapay Zeka Destekli 3D Üretim İş Akışlarının Karşılaştırması

**3D AIGC insanların yerini alacak mı? **

Vardığımız sonuç, henüz olmadığıdır. 3D AIGC bağlantısında insanlar hala vazgeçilmez bir bağlantıdır.

Yukarıda bahsedilen 3D model oluşturma teknolojisi, robotik, otonom sürüş ve 3D oyunlarda birçok uygulamaya sahip olabilse de, mevcut üretim süreci hala geniş bir uygulama yelpazesini karşılayamıyor.

Bu amaçla Silicon Rabbit Jun, San Diego'daki California Üniversitesi'nden Profesör Su Hao ile röportaj yaptı. Kendisi, 3D Derin Öğrenme ve Somutlaşmış Yapay Zeka alanlarında lider bir uzmandır. –3–45'in yazarlarından biridir. modeli. Profesör Su Hao, mevcut 3D üretim modelinin ana darboğazının çok sayıda yüksek kaliteli 3D veri setinin olmaması olduğuna inanıyor. ShapeNet (yaklaşık 52K 3B ızgara) veya Objaverse (yaklaşık 800K 3B model) gibi şu anda yaygın olarak kullanılan 3B veri kümeleri, nicelik ve detay kalitesi açısından iyileştirilmesi gereken modelleri içerir. Özellikle 2B alandaki büyük veri kümeleriyle (ör. LAION-5B) karşılaştırıldığında, veri hacimleri hala büyük 3B modelleri eğitmek için yeterli olmaktan uzaktır.

Profesör Su Hao, bir zamanlar geometrik hesaplamanın öncüsü ve Amerikan Bilimler Akademisi üyesi Profesör Leonidas Guibas'ın yanında çalıştı ve Profesör Feifei Li liderliğindeki ImageNet projesine erken katkıda bulunanlardan biri olarak katıldı. Onlardan ilham alan Profesör Su Hao, kapsamlı 3B veri kümelerinin gelişen teknolojideki kilit rolünü vurguladı ve 3B derin öğrenme alanının ortaya çıkışı ve refahı için zemin hazırladı.

Ayrıca, 3B modeller 2B görüntülerden çok daha karmaşıktır, örneğin:

  1. Parça yapısı: Oyunlar veya dijital ikiz uygulamalar, tek bir 3B ağ yerine 3B nesnelerin yapılandırılmış parçalarını (örn. PartNet) gerektirir;

  2. Eklemler ve bağlamalar: 3B nesnelerle etkileşim için temel özellikler;

  3. Doku ve malzeme: yansıtma, yüzey sürtünme katsayısı, yoğunluk dağılımı, Young modülü ve etkileşimi destekleyen diğer temel özellikler gibi;

  4. İşlem ve manipülasyon: Tasarımcıların 3B modelleri daha etkili bir şekilde etkileşim kurmasına ve manipüle etmesine izin verin.

Ve yukarıdaki noktalar, insan uzmanlığının önemli bir rol oynamaya devam edebileceği noktalardır.

Profesör Su Hao, gelecekte yapay zeka güdümlü 3B veri üretiminin aşağıdaki özelliklere sahip olması gerektiğine inanıyor:

  1. Etkileşimli uygulamaları destekleyen 3B modellerin oluşturulmasını destekleyin. Bu etkileşim, hem nesneler arasındaki fiziksel etkileşimi (çarpışmalar gibi) hem de insanlar ve nesneler arasındaki etkileşimi (fiziksel ve fiziksel olmayan etkileşim yöntemleri) içerir ve oyunda 3B veri oluşturur. , metaverse, fiziksel simülasyon ve diğer senaryolar yaygın olarak kullanılabilir;

  2. AI destekli 3D içerik oluşturmayı destekleyerek modellemeyi daha verimli hale getirin;

  3. Human-in-the-loop oluşturma sürecini destekleyin ve üretilen verilerin kalitesini iyileştirmek için insanın sanatsal yeteneğini kullanın, böylece modelleme performansını daha da iyileştirin ve bir kapalı döngü veri çarkı efekti oluşturun.

DALL-E ve ChatGPT gibi teknolojilerin son 18 aydaki inanılmaz gelişimine benzer şekilde, 3D AIGC alanında olmak üzere olanların, yeniliklerinin ve uygulamalarının büyük olasılıkla beklentilerimizi aşacağına inanıyoruz, Silicon Rabbit Keşfi ve çıktıyı derinleştirmeye devam edin.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)