Midjourney a marqué l'arrivée de l'adversaire le plus puissant, les géants du financement du tour de table se sont réunis et la version bêta a permis à Musk de passer au travers avec une "clé"
Pendant longtemps, Midjourney s'est solidement assis sur le trône du diagramme d'AIGC Vincent, avec peu de menaces jusqu'à l'émergence de cette société.
Le 23 août, Ideogram AI, une startup d'intelligence artificielle générative, a officiellement annoncé : « Nous développons les outils d'intelligence artificielle les plus avancés pour rendre l'expression créative plus facile, plus amusante et plus efficace. » écrit le site officiel.
Les principaux membres de l'équipe sont également les principaux membres de l'équipe Google Brain Imagen, et Ideogram AI est également considéré comme essayant de faire avancer Imagen :
Mohammad Norouzi (PDG), Jonathan Ho (co-fondateur), William Chan et Chitwan Saharia sont tous les principaux auteurs du modèle d'IA de synthèse texte-image de Google, Imagen, et les articles connexes ont été présélectionnés pour l'article exceptionnel NeurIPS 2022.
Imagen utilise le modèle de langage Transformer pour convertir le texte d'entrée en une séquence de vecteurs intégrés. Ensuite, une série de trois modèles de diffusion (modèle de diffusion) convertira ces vecteurs intégrés en images de 1024 x 1024 pixels.
Parce qu'il est conceptuellement simple et facile à entraîner, et qu'il peut également produire des effets étonnamment puissants, Imagen remodèle non seulement la compréhension de chacun des modèles de diffusion, mais ouvre également un nouveau paradigme de graphes de Vincent au-delà de DALL-E 2.
Plus tard, après que Meta a annoncé son modèle d'IA de vidéo texte Make-A-Video, Google a publié le modèle vidéo Imagen Video (regardez, les noms sont similaires), qui est basé sur le modèle de diffusion vidéo en cascade pour générer des vidéos haute définition.
Imagen Video hérite de la fonction de représentation précise du texte du précédent système d'images de génération de texte Imagen. Sur cette base, il peut générer diverses animations créatives uniquement par une simple description.
Les membres actuels de l’équipe affichés sur le site officiel.
"Notre équipe fondatrice a dirigé des projets d'intelligence artificielle transformatrice à Google Brain, à l'UC Berkeley, à l'Université Carnegie Mellon et à l'Université de Toronto", indique le site officiel.
Mohammad Norouzi a travaillé chez Google Brain pendant 7 ans avant de démarrer sa propre entreprise. Le dernier niveau chez Google était celui de chercheur scientifique senior, spécialisé dans les modèles génératifs. Ideogram AI possède le plus large éventail de travaux fondamentaux en matière d'intelligence artificielle, notamment Imagen, Imagen Video, WaveGrad pour la synthèse vocale, la traduction automatique neuronale, l'apprentissage des représentations visuelles, l'étude contrastée, etc. Les membres de l’équipe collaborative sont également les plus nombreux.
Le co-fondateur Jonathan Ho, titulaire d'un doctorat de l'UC Berkeley, a tellement travaillé sur le modèle de diffusion que son départ est considéré par les initiés du secteur comme une perte majeure pour Google.
En avril 2022, Google a proposé les modèles de diffusion vidéo (Video Diffusion Models), et a rapporté pour la première fois les résultats du modèle de diffusion générant des vidéos à partir de texte (avec de bons résultats). Mohammad Norouzi et Jonathan Ho sont les principaux auteurs de l'article.
Jonathan Ho est également l'un des travaux fondateurs du modèle de diffusion, et a proposé le modèle de diffusion avec débruitage Modèles probabilistes de diffusion de bruit. (Fait intéressant, l’un des co-auteurs Pieter Abbeel est également investisseur dans cette société).
Chitwan Saharia a dirigé les travaux sur les modèles de diffusion image à image chez Google. En plus de son travail sur les modèles de diffusion, Willian Chan a travaillé sur la reconnaissance neuronale de la parole chez Google, en collaboration avec Mohammad Norouzi sur WaveGrad pour la synthèse vocale.
Peut-être en raison des préoccupations de Google en matière de sécurité et d'éthique, Google doit adopter des réglementations supplémentaires pour choisir d'ouvrir Imagen et Imagen Video en open source. Ces piliers ont décidé de quitter l'entreprise.
"Nous repoussons les limites de l'intelligence artificielle, en nous concentrant sur la créativité et des normes élevées de confiance et de sécurité", conclut l'annonce officielle.
Capture d'écran du site officiel
Le même jour, la société a également annoncé avoir levé un total de 16,5 millions de dollars en financement de démarrage dirigé par a16z et Index Ventures. Plusieurs piliers industriels bien connus ont également participé à ce cycle d’investissement.
Par exemple, Ryan Dahl, père de Node.js, Raquel Urtasun, scientifique en chef chez Uber, Jeff Dean, Andrej Karpathy, Pieter Abbeel, Tom Preston-Werner, fondateur de GitHub.
Dans le même temps, la société a également annoncé le lancement de la version bêta publique de la v0.1. Nous l’avons aussi simplement vécu. À l'heure actuelle, seul le service de génération d'images à partir de texte est fourni. L'opération est très simple, il suffit de saisir vos besoins, puis de sélectionner le style et les proportions de l'image générée.
La capacité à comprendre le système est toujours bonne, en particulier la compréhension du texte qui doit être généré dans l'image. L'inconvénient est que la vitesse de réponse est relativement lente, que les instructions chinoises ne peuvent pas être comprises et que la compréhension spatiale de la composition doit être améliorée.
page d'opération
"Ponyo plongeant dans le lait avec du dorphin", AI semble incapable de comprendre le "lait" dans la commande, mais a donné l'image selon sa propre compréhension (mer).
Nous avons modifié l'entrée : "Elon Musk prend la main de Lisa (blackpink) dans une voiture Tesla, (cinématique)"
Fondamentalement correct. C'est juste qu'ils ont tous les deux un problème avec leur visage, c'est Lisa ?
Laissez Musk voyager et essayez le style Hanfu, et le résultat est vraiment un peu un héros.
« Elon Musk aux cheveux longs en costume traditionnel chinois, photo »
" Blackpink Jennie mais très grosse, photo. " Oui, ça ressemble à ça après avoir pris du poids.
Jetons un coup d'œil aux résultats de certains utilisateurs de Twitter. Même si du texte doit être généré dans l'image générée, le système peut le faire.
例如,「Un adorable serviteur tenant une pancarte qui dit 『C'est fini, MidJourney』, orthographié exactement, rendu 3D, typographie」
Des amis sur Twitter ont déclaré que même si le système n'était pas toujours capable d'épeler correctement, le taux de réussite était bon.
« Un joli pikachu moelleux debout sur une grande lune pelucheuse, tenant une enseigne au néon disant « à la lune », rendu 3D. »
Parmi les films récemment sortis, "Barbie" et "Oppenheimer" ont attiré davantage d'attention. Les utilisateurs de Twitter ont demandé à générer une affiche de film sur "Barbenheimer (Barbenheimer)", faisant référence avec style à Barbie et aux armes nucléaires. L'effet est le suivant.
Bien que les informations sur le film soient susceptibles d'apparaître après la date limite de formation, le système gère toujours bien ce mot composé. Aussi, vieux problème, les visages des personnages ne sont pas assez beaux.
« Mot « surréaliste » épelé et rendu dans une peinture et une typographie surréalistes de style Dali. »
「un bonhomme de neige fondant dans un volcan」
« Mot « NVIDIA » rendu dans la typographie des circuits de puces GPU, cyperpunk, science-fiction »
「belle fille dans le tableau de Dali, avec une légende『Stanford』, typographie 」
Un chat ragdoll élégant portant des lunettes de soleil Gucci tenant une pancarte indiquant Happy Sunday, fond noir, affiche
Il y a 4 objets dans la scène. Une pyramide rouge se trouve au sommet d’un cube bleu. Une sphère jaune se trouve sous le cube bleu. Un hexagone de marbre est situé à gauche de la pyramide, avec le cube bleu au sommet.
Il semble que la compréhension actuelle de la composition et de l’espace du système ne soit pas en place.
Vitrine de travaux sur d'autres pages d'accueil.
Lien comestible :
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
2 J'aime
Récompense
2
1
Partager
Commentaire
0/400
GateUser-bcf7bb63
· 2023-12-19 01:44
Comment s’inscrire, j’ai vu qu’il n’y a pas de jetons, faut-il s’inscrire pour obtenir des points ?
Midjourney a marqué l'arrivée de l'adversaire le plus puissant, les géants du financement du tour de table se sont réunis et la version bêta a permis à Musk de passer au travers avec une "clé"
**Source :**La puissance de la machine
Le 23 août, Ideogram AI, une startup d'intelligence artificielle générative, a officiellement annoncé : « Nous développons les outils d'intelligence artificielle les plus avancés pour rendre l'expression créative plus facile, plus amusante et plus efficace. » écrit le site officiel.
Les principaux membres de l'équipe sont également les principaux membres de l'équipe Google Brain Imagen, et Ideogram AI est également considéré comme essayant de faire avancer Imagen :
Mohammad Norouzi (PDG), Jonathan Ho (co-fondateur), William Chan et Chitwan Saharia sont tous les principaux auteurs du modèle d'IA de synthèse texte-image de Google, Imagen, et les articles connexes ont été présélectionnés pour l'article exceptionnel NeurIPS 2022.
Imagen utilise le modèle de langage Transformer pour convertir le texte d'entrée en une séquence de vecteurs intégrés. Ensuite, une série de trois modèles de diffusion (modèle de diffusion) convertira ces vecteurs intégrés en images de 1024 x 1024 pixels.
Parce qu'il est conceptuellement simple et facile à entraîner, et qu'il peut également produire des effets étonnamment puissants, Imagen remodèle non seulement la compréhension de chacun des modèles de diffusion, mais ouvre également un nouveau paradigme de graphes de Vincent au-delà de DALL-E 2.
Plus tard, après que Meta a annoncé son modèle d'IA de vidéo texte Make-A-Video, Google a publié le modèle vidéo Imagen Video (regardez, les noms sont similaires), qui est basé sur le modèle de diffusion vidéo en cascade pour générer des vidéos haute définition.
Imagen Video hérite de la fonction de représentation précise du texte du précédent système d'images de génération de texte Imagen. Sur cette base, il peut générer diverses animations créatives uniquement par une simple description.
"Notre équipe fondatrice a dirigé des projets d'intelligence artificielle transformatrice à Google Brain, à l'UC Berkeley, à l'Université Carnegie Mellon et à l'Université de Toronto", indique le site officiel.
Mohammad Norouzi a travaillé chez Google Brain pendant 7 ans avant de démarrer sa propre entreprise. Le dernier niveau chez Google était celui de chercheur scientifique senior, spécialisé dans les modèles génératifs. Ideogram AI possède le plus large éventail de travaux fondamentaux en matière d'intelligence artificielle, notamment Imagen, Imagen Video, WaveGrad pour la synthèse vocale, la traduction automatique neuronale, l'apprentissage des représentations visuelles, l'étude contrastée, etc. Les membres de l’équipe collaborative sont également les plus nombreux.
Le co-fondateur Jonathan Ho, titulaire d'un doctorat de l'UC Berkeley, a tellement travaillé sur le modèle de diffusion que son départ est considéré par les initiés du secteur comme une perte majeure pour Google.
Jonathan Ho est également l'un des travaux fondateurs du modèle de diffusion, et a proposé le modèle de diffusion avec débruitage Modèles probabilistes de diffusion de bruit. (Fait intéressant, l’un des co-auteurs Pieter Abbeel est également investisseur dans cette société).
Chitwan Saharia a dirigé les travaux sur les modèles de diffusion image à image chez Google. En plus de son travail sur les modèles de diffusion, Willian Chan a travaillé sur la reconnaissance neuronale de la parole chez Google, en collaboration avec Mohammad Norouzi sur WaveGrad pour la synthèse vocale.
Peut-être en raison des préoccupations de Google en matière de sécurité et d'éthique, Google doit adopter des réglementations supplémentaires pour choisir d'ouvrir Imagen et Imagen Video en open source. Ces piliers ont décidé de quitter l'entreprise.
"Nous repoussons les limites de l'intelligence artificielle, en nous concentrant sur la créativité et des normes élevées de confiance et de sécurité", conclut l'annonce officielle.
Le même jour, la société a également annoncé avoir levé un total de 16,5 millions de dollars en financement de démarrage dirigé par a16z et Index Ventures. Plusieurs piliers industriels bien connus ont également participé à ce cycle d’investissement.
Par exemple, Ryan Dahl, père de Node.js, Raquel Urtasun, scientifique en chef chez Uber, Jeff Dean, Andrej Karpathy, Pieter Abbeel, Tom Preston-Werner, fondateur de GitHub.
Dans le même temps, la société a également annoncé le lancement de la version bêta publique de la v0.1. Nous l’avons aussi simplement vécu. À l'heure actuelle, seul le service de génération d'images à partir de texte est fourni. L'opération est très simple, il suffit de saisir vos besoins, puis de sélectionner le style et les proportions de l'image générée.
La capacité à comprendre le système est toujours bonne, en particulier la compréhension du texte qui doit être généré dans l'image. L'inconvénient est que la vitesse de réponse est relativement lente, que les instructions chinoises ne peuvent pas être comprises et que la compréhension spatiale de la composition doit être améliorée.
"Ponyo plongeant dans le lait avec du dorphin", AI semble incapable de comprendre le "lait" dans la commande, mais a donné l'image selon sa propre compréhension (mer).
Fondamentalement correct. C'est juste qu'ils ont tous les deux un problème avec leur visage, c'est Lisa ?
« Elon Musk aux cheveux longs en costume traditionnel chinois, photo »
例如,「Un adorable serviteur tenant une pancarte qui dit 『C'est fini, MidJourney』, orthographié exactement, rendu 3D, typographie」
Des amis sur Twitter ont déclaré que même si le système n'était pas toujours capable d'épeler correctement, le taux de réussite était bon.
Bien que les informations sur le film soient susceptibles d'apparaître après la date limite de formation, le système gère toujours bien ce mot composé. Aussi, vieux problème, les visages des personnages ne sont pas assez beaux.
Il semble que la compréhension actuelle de la composition et de l’espace du système ne soit pas en place.