Nouvelle percée 2D à 3D! Analyse approfondie de la technologie AIGC, un article pour comprendre l'historique et la situation actuelle de la génération de données 3D

2023-07-28 05:49:47

Auteur : Chengxi Éditeur : Manman Zhou

La source: Silicon Rabbit Race

Au cours des 18 derniers mois, la génération de contenu IA (AIGC) est sans aucun doute le sujet le plus brûlant et le plus brûlant du cercle du capital-risque technologique de la Silicon Valley.

DALL-E (disponible en janvier 2021)

Midjourney (à venir en juillet 2022)

** Diffusion stable ** (à venir en août 2022)

Ce type d'outil de génération 2D peut convertir des invites de texte ( ) en images artistiques en quelques secondes seulement. Avec l'évolution et l'avancement de ces outils AIGC 2D, les flux de travail créatifs des artistes, des concepteurs et des studios de jeux sont rapidement révolutionnés.

Où est la prochaine percée d'AIGC ? De nombreux investisseurs et vétérans de l'industrie ont donné des prédictions - génération de données 3D.

Nous avons remarqué que l'AIGC 3D traverse une étape où l'AIGC 2D a été développé. Dans cet article, nous discuterons plus en détail des nouvelles percées de l'AIGC dans le domaine des données 3D et nous attendons avec impatience la façon dont les outils d'IA générative peuvent améliorer l'efficacité et l'innovation de la génération de données 3D.

01 Bilan du développement rapide de l'AIGC 2D

Le développement de l'AIGC 2D peut être brièvement résumé en trois étapes de développement :

Phase 1 : Édition intelligente des images

Dès 2014, avec l'introduction du réseau de confrontation générative (GAN, travail de suivi typique StyleGAN) et de l'auto-encodeur variationnel (VAE, travail de suivi typique VQVAE, alignDRAW), les modèles d'IA ont commencé à être largement utilisés dans la génération intelligente de Images 2D et montage. Les premiers modèles d'IA étaient principalement utilisés pour apprendre certaines distributions d'images relativement simples ou effectuer des retouches d'images. Les applications courantes incluent : la génération de visages, le transfert de style d'image, la super-résolution d'image, la complétion d'image et la retouche d'image contrôlable.

Mais les premiers réseaux de génération/édition d'images ont une interaction multimodale très limitée avec le texte. De plus, les réseaux GAN sont généralement difficiles à entraîner et rencontrent souvent des problèmes tels que l'effondrement et l'instabilité des modes. Les données générées sont généralement pauvres en diversité et la capacité du modèle détermine également la limite supérieure de l'échelle des données disponibles. VAE rencontre souvent le l'image générée est floue et d'autres problèmes.

La deuxième étape : le saut du modèle de graphe de Vincent

Avec la percée de la technologie de génération de diffusion (diffusion), l'émergence et le développement d'ensembles de données multimodaux à grande échelle (tels que l'ensemble de données LAION) et de modèles de représentation multimodaux (tels que le modèle CLIP publié par OpenAI), le domaine de la génération d'images 2D aura lieu en 2021. Des progrès significatifs ont été réalisés. Le modèle de génération d'images a commencé à interagir profondément avec le texte, et le modèle de graphe de Vincent à grande échelle a fait des débuts étonnants.

Lorsque OpenAI publiera DALL-E au début de 2021, la technologie AIGC commencera vraiment à montrer un grand potentiel commercial. DALL-E peut générer des images réalistes et complexes à partir de repères textuels arbitraires avec un taux de réussite grandement amélioré. En un an, un grand nombre de modèles de graphes de Vincent ont rapidement suivi, notamment DALL-E 2 (mis à jour en avril 2022) et Imagen (publié par Google en mai 2022). Bien que ces technologies n'aient pas encore été efficaces pour aider les créateurs d'art à produire du contenu pouvant être directement mis en production, elles ont attiré l'attention du public et stimulé la créativité et le potentiel de production des artistes, des concepteurs et des studios de jeux.

Phase 3 : d'incroyable à productif

Avec l'amélioration des détails techniques et l'itération de l'optimisation de l'ingénierie, l'AIGC 2D s'est développé rapidement. Au second semestre 2022, des modèles tels que Midjourney et Stable Diffusion sont devenus des outils AIGC populaires. Poussées par leurs ensembles de données de formation à grande échelle, les performances des techniques AIGC dans les applications du monde réel ont profité aux premiers utilisateurs des secteurs des médias, de la publicité et des jeux. En outre, l'émergence et le développement de technologies de réglage fin de grands modèles (telles que ControlNet et LoRA) permettent également aux utilisateurs de "personnaliser" d'ajuster et d'étendre de grands modèles d'IA en fonction de leurs besoins réels et d'une petite quantité de données de formation, de manière à mieux s'adapter à différentes applications spécifiques (telles que la stylisation bidimensionnelle, la génération de logo, la génération de code QR, etc.).

L'idéation et le prototypage avec les outils AIGC prennent maintenant des heures ou moins dans de nombreux cas, plutôt que les jours ou les semaines qu'ils prenaient auparavant. Alors que la plupart des graphistes professionnels modifient ou recréent encore des croquis générés par l'IA, il est de plus en plus courant que les blogs personnels ou les publicités utilisent directement des images générées par l'IA.

Différents effets de alignDRAW, DALL-E 2 et Midjourney conversion de texte en image.

En plus de la conversion texte-image, l'AIGC 2D continue d'avoir des développements plus récents. Par exemple, Midjourney et d'autres startups comme Runway et Phenaki développent des capacités de conversion texte-vidéo. De plus, Zero-1-to-3 a proposé une méthode pour générer des images correspondantes sous différents angles de vue à partir d'une seule image 2D d'un objet.

En raison de la demande croissante de données 3D dans les industries du jeu et de la robotique, la recherche de pointe actuelle sur l'AIGC se déplace progressivement vers la génération de données 3D. Nous nous attendons à un schéma de développement similaire pour l'AIGC 3D.

Moment "DALL-E" de 3D AIGC

Les récentes percées technologiques dans le domaine de la 3D nous disent que le moment "DALL-E" de l'AIGC 3D arrive !

De DreamFields fin 2021 à DreamFusion et Magic3D au second semestre 2022, puis à ProlificDreamer en mai de cette année, grâce au développement des domaines multimodaux et des modèles de graphes de Vincent, de nombreuses percées ont été réalisées dans le modèle 3D académique de Wensheng. Plusieurs méthodes sont capables de générer des modèles 3D de haute qualité à partir du texte d'entrée.

Cependant, la plupart de ces premières explorations nécessitent d'optimiser une représentation 3D à partir de zéro lors de la génération de chaque modèle 3D, afin que les perspectives 2D correspondant à la représentation 3D répondent aux attentes des modèles d'entrée et antérieurs. Étant donné que de telles optimisations nécessitent généralement des dizaines de milliers d'itérations, elles prennent souvent du temps. Par exemple, la génération d'un seul modèle de maillage 3D peut prendre jusqu'à 40 minutes dans Magic3D et des heures dans ProlificDreamer. De plus, l'un des grands défis de la génération 3D est que le modèle 3D doit avoir la cohérence de la forme de l'objet sous différents angles. Les méthodes AIGC 3D existantes rencontrent souvent le problème de Janus, c'est-à-dire que les objets 3D générés par l'IA ont plusieurs têtes ou plusieurs faces.

Problème Janus dû au manque de cohérence de la forme 3D dans ProlificDreamer. Sur la gauche se trouve une vue frontale d'un oiseau bleu apparemment normal. Sur la droite se trouve une image déroutante représentant un oiseau à deux visages.

Mais d'un autre côté, certaines équipes tentent de percer le paradigme de génération basé sur l'optimisation existant et de générer des modèles 3D via une seule voie technique de prédiction directe, ce qui améliore considérablement la vitesse et la précision de la génération 3D. Ces méthodes incluent Point-E et Shap-E (publiées par OpenAI en 2022 et 2023, respectivement) et One-2–3–45 (publiées par UC San Diego en 2023). On notera en particulier le One-2–3–45, sorti le mois dernier, capable de générer un maillage 3D de haute qualité et cohérent à partir d'une image 2D en seulement 45 secondes !

Une analyse comparative des méthodes d'image unique et de maillage 3D. De gauche à droite, nous pouvons observer que le temps de traitement a chuté de manière spectaculaire, passant de plus d'une heure à moins d'une minute. Le Point-E, le Shap-E et le One-2–3–45 excellent tous en vitesse et en précision.

Ces dernières percées technologiques dans le domaine de l'AIGC 3D améliorent non seulement considérablement la vitesse et la qualité de génération, mais rendent également la saisie de l'utilisateur plus flexible. Les utilisateurs peuvent soit entrer via des invites de texte, soit générer le modèle 3D souhaité via une seule image 2D avec plus d'informations. Cela élargit considérablement les possibilités de l'AIGC 3D en termes d'applications commerciales.

L'IA révolutionne le processus de production 3D

Tout d'abord, comprenons le flux de travail que les concepteurs 3D traditionnels doivent suivre pour créer des modèles 3D :

Esquisses conceptuelles : les concepteurs d'art conceptuel réfléchissent et imaginent les maquettes requises en fonction des commentaires des clients et des références visuelles.
Prototypage 3D : les concepteurs de modèles utilisent un logiciel professionnel pour créer la forme de base du modèle et itérer en fonction des commentaires des clients.
Raffinement du modèle : Ajoutez des détails, des couleurs, des textures et des propriétés d'animation (telles que le gréement, l'éclairage, etc.) au modèle 3D brut.
Finalisation du modèle : Les concepteurs utilisent un logiciel d'édition d'images pour améliorer le rendu final, ajuster les couleurs, ajouter des effets ou effectuer une synthèse d'éléments.

Ce processus prend généralement quelques semaines, voire plus si l'animation est impliquée. Cependant, chacune de ces étapes pourrait potentiellement être accélérée avec l'aide de l'IA.

Un puissant générateur d'images multi-vues (par exemple, Zero-1–to–3 basé sur Stable Diffusion et Midjourney) facilite le brainstorming créatif et génère des croquis d'images multi-vues.
Les technologies de texte en 3D ou d'image en 3D (par exemple, One-2–3–45 ou Shap-E) peuvent générer plusieurs prototypes 3D en quelques minutes, offrant aux concepteurs un large éventail d'options.
En utilisant l'optimisation du modèle 3D (par exemple, Magic 3D ou ProlificDreamer), les prototypes sélectionnés peuvent être automatiquement affinés en quelques heures.
Une fois que le modèle raffiné est prêt, le concepteur 3D peut poursuivre la conception et compléter le modèle haute fidélité.

Comparaison des workflows de production 3D traditionnels et pilotés par l'IA

Le AIGC 3D remplacera-t-il les humains ?

Notre conclusion est que pas encore. L'humain reste un maillon indispensable dans le maillon AIGC 3D.

Bien que la technologie de génération de modèles 3D mentionnée ci-dessus puisse avoir de nombreuses applications dans la robotique, la conduite autonome et les jeux 3D, le processus de production actuel ne peut toujours pas répondre à un large éventail d'applications.

À cette fin, Silicon Rabbit Jun a interviewé le Professeur Su Hao de l'Université de Californie à San Diego. Il est un expert de premier plan dans les domaines de l'apprentissage en profondeur 3D et de l'IA incarnée. L'un des auteurs du -3–45 modèle. Le professeur Su Hao estime que le principal goulot d'étranglement du modèle de génération 3D actuel est le manque d'un grand nombre d'ensembles de données 3D de haute qualité. Les ensembles de données 3D actuellement couramment utilisés tels que ShapeNet (environ 52K grilles 3D) ou Objaverse (environ 800K modèles 3D) contiennent des modèles qui doivent être améliorés en termes de quantité et de qualité des détails. Surtout par rapport aux grands ensembles de données dans le domaine 2D (par exemple, LAION-5B), leur volume de données est encore loin d'être suffisant pour former de grands modèles 3D.

Le professeur Su Hao a étudié auprès du professeur Leonidas Guibas, pionnier de l'informatique géométrique et membre de l'Académie américaine des sciences, et a participé au projet ImageNet dirigé par le professeur Feifei Li en tant que premier contributeur. Inspiré par eux, le professeur Su Hao a souligné le rôle clé des vastes ensembles de données 3D dans l'avancement de la technologie et a jeté les bases de l'émergence et de la prospérité du domaine de l'apprentissage en profondeur 3D.

De plus, les modèles 3D sont bien plus complexes que les images 2D, par exemple :

Structure partielle : les jeux ou les applications de jumeau numérique nécessitent des parties structurées d'objets 3D (par exemple, PartNet), plutôt qu'un seul maillage 3D ;
Articulations et liaisons : propriétés clés pour interagir avec des objets 3D ;
Texture et matériau : tels que la réflectance, le coefficient de frottement de surface, la distribution de la densité, le module de Young et d'autres propriétés clés qui favorisent l'interaction ;
Exploitation et manipulation : permettent aux concepteurs d'interagir et de manipuler plus efficacement les modèles 3D.

Et les points ci-dessus sont là où l'expertise humaine peut continuer à jouer un rôle important.

Le professeur Su Hao pense qu'à l'avenir, la génération de données 3D basée sur l'IA devrait avoir les caractéristiques suivantes :

Soutenir la génération de modèles 3D prenant en charge les applications interactives.Cette interaction comprend à la fois l'interaction physique entre les objets (comme les collisions) et l'interaction entre les personnes et les objets (méthodes d'interaction physiques et non physiques), rendant les données 3D dans le jeu , métaverse, simulation physique et autres scénarios peuvent être largement utilisés ;
Prise en charge de la génération de contenu 3D assistée par l'IA, rendant la modélisation plus efficace ;
Soutenir le processus de création de Human-in-the-loop et utiliser le talent artistique humain pour améliorer la qualité des données générées, améliorant ainsi encore les performances de modélisation et formant un effet de volant de données en boucle fermée.

Semblable à l'incroyable développement de technologies telles que DALL-E et ChatGPT au cours des 18 derniers mois, nous croyons fermement que ce qui est sur le point de se produire dans le domaine de l'AIGC 3D, son innovation et son application dépasseront très probablement nos attentes, Silicon Rabbit continuer à approfondir l'exploration et la production.

Voir l'original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.