Le dessin AI d'Ali a été testé en interne, ce qui a provoqué un choc dans certaines grandes usines

Auteur : Du Wei, Zenan

**Pour demander à la conférence mondiale sur l'intelligence artificielle WAIC de cette année, qui en est le protagoniste ? Le mégamodèle d'IA le mérite. **

La conférence a duré trois jours, et diverses entreprises et institutions ont successivement dévoilé plus de 30 grands modèles.

Les modèles de langage sont indispensables dans ce festin de grands modèles.Bien sûr, il existe aussi des modèles de peinture à grande échelle qui provoquent souvent un choc visuel. Non, dans le domaine du dessin IA, un autre acteur national est entré sur le terrain.

Trois mois après la sortie du grand modèle de langage Tongyi Qianwen, le grand modèle de création de peinture AI d'Ali est également venu, et il est basé sur le modèle génératif combiné auto-développé Composer.

Lors de la conférence WAIC du 7 juillet, la famille de modèles à grande échelle Alibaba Cloud Tongyi a dévoilé son dernier membre « Tongyi Wanxiang ».

WAIC *Dans le forum thématique d'Alibaba Cloud "MaaS : un nouveau paradigme pour le développement de l'IA centrée sur le modèle", Tongyi Wanxiang est apparu. *

Son effet d'image de génération de texte est comme ça, et la vitesse de génération est très rapide.

Tongyi Wanxiang peut également générer une nouvelle image d'un autre style spécifié pour une image originale.

Il existe également un jeu de poupées gigognes, qui génère des images similaires pour une image originale.

Ali a déclaré que Tongyi Wanxiang a la capacité de générer des graphiques et des graphiques, ce qui peut aider les humains dans la création d'images et réduire considérablement le seuil de conception d'images. À l'avenir, il pourra également être appliqué à des scénarios d'application tels que la conception artistique, les jeux et la création culturelle.

Actuellement, le modèle a ouvert des tests d'invitation directionnels.

Avant que ChatGPT ne devienne populaire, le sujet le plus populaire dans le domaine de l'IA était le dessin d'IA. Le modèle de diffusion a fait faire un grand pas en avant à l'IA générative. Depuis un certain temps, il existe un grand nombre de modèles d'IA qui saisissent du texte et génèrent des images de différents styles. Par la suite, d'autres moyens de générer des images à partir d'images et de convertir des images dans des styles spécifiés sont apparus, ce qui a ébloui et émerveillé les gens de la magie de l'IA générative.

Sur la grande scène du WAIC, Ali a lancé cet artefact d'IA qui peut générer à la fois du texte et des graphiques, ce qui montre qu'il est très confiant dans son effet de génération.

Après avoir obtenu la qualification d'expérience, le cœur de la machine doit bien sûr d'abord l'essayer.

** Mesure réelle de Tongyi Wanxiang : gameplay diversifié, un coup est un chef-d'œuvre **

Ce nouveau modèle de la famille Tongyi a-t-il apporté des changements dans le domaine du dessin IA ? Nous parlons avec des résultats.

Actuellement, Tongyi Wanxiang a lancé les trois fonctions de ** génération d'images de texte, génération d'images similaires et transfert de style d'image **.

Commençons par la génération standard de texte à image. À Wenshengtu, vous pouvez choisir parmi différents styles tels que l'aquarelle, la peinture à l'huile, la peinture chinoise, l'illustration plate, en deux dimensions, le croquis, le dessin animé 3D, etc. Après avoir saisi une description textuelle et sélectionné un style, l'IA peut générer automatiquement une image créative. Dans le même temps, pour la commodité d'utilisation, le rapport de l'image de sortie a trois options : 1:1, 16:9 et 9:16.

Commençons par quelque chose de moins compliqué. Nous choisissons un ensemble de mots de "Tianjingsha·Pensées d'automne" de Ma Zhiyuan, l'un des quatre maîtres de Yuanqu, pour décrire "les petits ponts, l'eau qui coule et les maisons", et choisissons "la peinture chinoise". pour le style.

En conséquence, Tongyi Wanxiang nous a complètement montré des peintures pleines de charme ancien, riches en détails, et a ajouté quelques éléments qui n'étaient pas dans la description, comme des montagnes lointaines et des canards nageant dans l'eau.

Autant changer encore deux styles, cette fois choisir "croquis" et "peinture à l'huile". Tongyi Wanxiang peut basculer librement dans différents styles, et les croquis et peintures à l'huile générés sont tout aussi étonnants. Il n'est pas exagéré de dire que ces images sont d'un niveau utilisable directement.

Laissez un autre ensemble de texte décrire "un chat dans une combinaison spatiale, espace, voyage, ciel étoilé", cette fois choisissez "bidimensionnel" et "dessin animé 3D" pour le style. L'effet est clair en un coup d'œil, en particulier le groupe de style dessin animé 3D, les chats sont si mignons.

En haut : 2D ; En bas : dessin animé 3D

Ici, j'ai soudain envie de comparer Tongyi Wanxiang avec le fameux Stable Diffusion. La même description textuelle est traduite en anglais "chat dans une combinaison spatiale, espace, voyage, ciel étoilé", puis "style de carton 3D" est ajouté, l'image générée est la suivante.

De manière inattendue, Tongyi Wanxiang a remporté cette vague.Les chats générés par Stable Diffusion étaient soit trop abstraits, soit trop réalistes, et n'affichaient pas un style cartoon 3D.

Puisqu'une simple description textuelle n'est pas difficile pour Tongyi Wanxiang, rendons-la difficile.

Cette fois, il y a une section plus longue "d'une fille japonaise aux cheveux bruns raides, à la peau claire, vêtue d'une robe, de dentelles et d'un nœud, portant un petit sac, souriante", et le style est "bidimensionnel". Je voudrais demander à des amis qui aiment la deuxième dimension, ces images générées correspondent-elles aux filles japonaises dans votre esprit ?

Un autre ensemble de descriptions dans un style magique est "surréalisme, texture exceptionnelle, résolution 4k, cyberpunk, cuirassé, majestueux, fumée, géants métalliques, armes laser, rendu d'octane", et le style est "peinture à l'huile". En regardant les images ci-dessous, il y a un sentiment de tension dans la bataille apocalyptique.

Nous remettons la même description dans Stable Diffusion. En termes de richesse de détails, Stable Diffusion est meilleur, mais son style d'image semble gris et ne donne pas aux gens une forte impression d'impact des couleurs. Et c'est un style plus réaliste, qui est légèrement différent du surréalisme.

Il semble qu'au moins sur la piste de Wen Shengtu, Tongyi Wanxiang semble complètement saisi. Les gens ne peuvent s'empêcher de soupirer, la capacité de l'IA générative dans le domaine du dessin a évolué.

** Ensuite, nous parlerons de la fonction de génération d'images de similarité de Tongyi Wanxiang **. Les utilisateurs n'ont qu'à fournir une image de référence pour obtenir des peintures AI avec un contenu et un style similaires. Il convient de noter ici que la taille de l'image téléchargée doit être inférieure à 10 Mo et que le format prend en charge les formats JPG, JPEG, PNG, BMP, etc.

Mettons d'abord un morceau de Musk, un visiteur fréquent du monde du dessin IA, pour voir à quoi ressemble le "Fenke" de Musk aux yeux de Tongyi Wanxiang. Par rapport au corps réel de Musk, l'image générée est plus ancienne, mais le sourire est tout aussi joyeux.

Encore une image de paysage, l'effet généré est très bon. Le ruisseau gargouille et l'eau est également parsemée de plus de feuilles mortes, ce qui n'est pas inférieur à l'image originale.

Dans l'expérience, le cœur de la machine a également constaté que les images générées par le sens général du texte Wanxiang peuvent générer directement des images similaires. Ici, nous sélectionnons l'un des "chats en combinaison spatiale" de style dessin animé 3D ci-dessus comme image d'origine. Dès que les résultats sont publiés, les chats générés sont plus mignons et les éléments d'arrière-plan sont plus abondants.

Enfin, regardez la fonction de migration de style. Il vous suffit de télécharger l'image d'origine dont vous souhaitez modifier le style et le diagramme schématique du style cible, et vous pouvez rapidement transformer l'image d'origine en image créative du style cible. Identique à la génération d'images similaires, la taille de l'image d'origine et de l'image de style ne doit pas dépasser 10M, et le format est le même.

Nous choisissons d'abord une image originale réaliste et une image de style impressionniste. En conséquence, les images originales réalistes ont complètement changé de style et sont devenues des peintures impressionnistes.

Essayez ensuite une image originale de dessin animé 3D et une image de style croquis. On peut voir d'après les résultats que la commutation entre les deux styles est facile.

Enfin, choisissez une image originale dans le style de la peinture chinoise et une image dans le style de l'aquarelle. Les résultats générés sont tout aussi bons.

Après quelques expériences, qu'il s'agisse d'un diagramme de Wensheng ou d'un diagramme de Tusheng, Tongyi Wanxiang nous a réservé bien des surprises en termes de corrélation sémantique, d'intégrité des images et de richesse des détails. En particulier la fonction de migration de style, la commutation entre différents styles est si fluide que les images générées n'ont presque aucun sens d'épissage et de maculage, comme si elles appartenaient au style cible.

En tant que nouveau membre de la famille de modèles à grande échelle Tongyi d'Alibaba Cloud, Ali a déclaré que les capacités existantes de Tongyi Wanxiang ne sont qu'un petit test et que ses capacités évoluent encore. À l'avenir, les capacités pertinentes seront progressivement ouvertes aux clients de l'industrie.

Modèle Composer auto-développé : 5 milliards de paramètres, atteindra le sommet

Auparavant, les grands modèles de nombreuses entreprises mettaient en place des personnes "multimodales", avec des capacités de dessin IA. En revanche, quel contenu technique la signification universelle d'Ali a-t-elle ? Il semble que ce ne soit pas une simple imitation, mais qu'il ait sa propre capacité unique.

Il est entendu que Tongyi Wanxiang est basé sur Composer, un modèle génératif combiné auto-développé développé par Ali, qui a 5 milliards de paramètres et est formé sur des milliards de paires de texte et d'image. Au moment où l'industrie réfléchit à la manière d'améliorer la contrôlabilité des modèles de peinture IA, Composer a donné ses idées innovantes.

Grâce à un cadre de "génération combinée" basé sur un modèle de diffusion, Composer peut désassembler et combiner des éléments de conception d'image tels que la correspondance des couleurs, la mise en page et le style, obtenant un effet de génération d'image hautement contrôlable et extrêmement libre.

Le résultat, comme vous et moi pouvons le voir, est qu'un seul modèle peut prendre en charge les tâches de génération d'images multi-classes. Zhou Jingren, directeur de la technologie d'Alibaba Cloud, a participé aux recherches de Composer, et les résultats pertinents ont été inclus dans ICML 2023, la plus grande conférence internationale sur l'IA.

* Adresse papier :

  • Adresse GitHub :

La soi-disant combinaison de désassemblage décompose d'abord l'image en différents éléments de conception, tels que la correspondance des couleurs, les croquis, la mise en page, le style, la sémantique, les matériaux, etc. Ces éléments de conception sont ensuite recombinés dans de nouvelles images à l'aide de modèles d'IA. Ici, le processus de démontage et d'assemblage permet une modification et une édition libres des éléments utilisés, de sorte que la contrôlabilité est grandement améliorée.

*Teardown - Processus de génération d'images combinées. *

Non seulement cela, Composer peut également atteindre un espace créatif plus large en « pressant » le potentiel de désassemblage-combinaison. En supposant qu'il y a 100 images, chacune étant divisée en 8 éléments, il y a 100 à la puissance 8 des combinaisons de tous les éléments. Cette augmentation exponentielle des nombres est connue sous le nom de phénomène d'explosion combinatoire et crée sans aucun doute un immense espace de génération pour les modèles d'IA. Dans le même temps, les concepteurs humains bénéficient également d'une grande liberté et de capacités de personnalisation lors de la génération d'images personnalisées.

* Processus de recombinaison d'images. *

C'est sur la base du framework Composer que Tongyi Wanxiang nous permet d'expérimenter les deux fonctions de génération de graphes de similarité et de transfert de style. Tout en utilisant le modèle de compréhension d'image pour désassembler l'image en différents éléments, tout en utilisant le modèle de diffusion pour recombiner ces éléments en une nouvelle image, l'approche à deux volets, la génération d'image est une évidence.

Parmi eux, pour la génération d'images similaires, en gardant le contenu sémantique de l'image inchangé, seule la modification des détails locaux dans l'image peut générer des images similaires. Dans le processus, la cohérence du corps principal de l'image originale peut être mieux maintenue, et la diversité et la qualité de l'image générée peuvent également être améliorées.

Pour le transfert de style, d'une part, la forme et la structure de base de l'image d'origine sont conservées, et d'autre part, le style, la couleur, les coups de pinceau et d'autres informations personnalisées de l'image de style cible sont transférés pour finalement réaliser le style transfert.

Utilisation du grand modèle comme noyau pour créer une base unifiée pour l'IA générative

Il semble que l'effet inattendu de Tongyi Wanxiang provienne de la propre technologie de base d'Ali.

En fait, en Chine, Ali est l'une des grandes entreprises qui a commencé à explorer l'IA générative plus tôt, et elle a commencé la recherche et le développement de la technologie des modèles à grande échelle en 2018. En 2019, le grand modèle de formation linguistique StructBERT proposé par le Dharma Institute a dépassé les recherches de Google, Microsoft et Facebook, et a atteint le sommet de la liste de référence faisant autorité en PNL GLUE à cette époque.

En 2021, Ali lancera le premier modèle multimodal à grande échelle M6 avec des dizaines de milliards de paramètres en Chine et le modèle de langage à grande échelle PLUG appelé "version chinoise GPT-3". Parmi eux, après plusieurs itérations, M6 a atteint une échelle de paramètres de dix billions de niveaux, et M6 est combiné avec les besoins commerciaux d'Alipay et de Taobao.

Lors du WAIC de l'année dernière, Ali a publié la série de modèles à grande échelle Tongyi, qui a construit pour la première fois un "modèle de base" pour l'industrie, obtenant une représentation modale unifiée, une représentation des tâches et une structure de modèle. De plus, les modèles de base pertinents sont en open source pour les développeurs du monde entier.

Concernant la mise en œuvre de l'IA générative, nous avons été confrontés à plusieurs défis : coût élevé de la puissance de calcul, processus de construction complexe et polyvalence limitée. Tongyi a créé la première base unifiée d'IA de l'industrie et a construit un système d'intelligence artificielle hiérarchique avec de grands et petits modèles coordonnés.Son objectif est de relever le défi et de laisser l'IA passer de la perception à la cognition.

On peut dire qu'Ali a apporté des contributions de pointe et de premier plan au développement de modèles chinois à grande échelle en termes de très grands modèles, de capacités linguistiques et multimodales, de formation à faible émission de carbone, de services de plate-forme et d'applications d'atterrissage. .

Avant Tongyi Wanxiang, Ali a successivement sorti "Tongyi Thousand Questions" pour le traitement du langage naturel et "Tongyi Listening" qui se spécialise dans la productivité audio et vidéo. Jusqu'à présent, les trois directions principales de l'IA ont toutes été ouvertes. Face à l'énorme demande potentielle de grands modèles et d'IA générative, Alibaba Cloud présente des avantages uniques.

En plus de l'accumulation de technologies de modèles à grande échelle, de solides capacités d'infrastructure cloud sont cruciales. En termes de puissance de calcul, Alibaba Cloud est le premier fournisseur de services de cloud computing en Asie et le troisième au monde, et son grand modèle dispose d'un solide support de système de puissance de calcul. Par exemple, Alibaba Cloud possède la plus grande réserve de puissance de calcul intelligente en Chine, et le cluster de calcul intelligent d'Alibaba Cloud peut prendre en charge une échelle GPU maximale de 100 000 cartes.

En outre, Ali a proposé pour la première fois le concept de « modèle en tant que service » en Chine et a pris l'initiative de créer la plus grande communauté de services de modèles d'IA en Chine, « Magic Build », en insistant sur l'open source et l'ouverture, et en promouvant l'inclusivité de l'IA. Lors du forum thématique "MaaS : un nouveau paradigme pour le développement de l'IA centrée sur le modèle" d'Alibaba Cloud, Zhou Jingren a partagé sa vision du MaaS et comment renforcer davantage les produits et les partenaires.

*Jingren Zhou, directeur technique d'Alibaba Cloud. *

Dans la compétition de l'IA 2.0, la compétition est entrée dans une nouvelle étape.Après la compétition des 100 modèles, il y aura inévitablement de grosses vagues, et Alibaba Cloud est prêt.

Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)