DALL·E 3 sera lancé pour les tests ! Le problème des astronautes à cheval est résolu, 50 objets sont spécifiés dans un seul tableau et Microsoft est profondément impliqué dans la recherche comme jamais auparavant.
Le test limité DALL·E 3 a été ouvert en premier par Microsoft Bing. Voyez-vous si vous êtes l'un des empereurs européens ?
△ depuis WindowsDernier
Peu importe si vous n'avez pas reçu la qualification : couplés à des aperçus de recherches tierces et à des essais internes réalisés par des employés d'OpenAI, divers cas de test ont émergé les uns après les autres, ce qui est garanti d'être agréable.
La plus exagérée est "50 objets différents apparaissent dans l'image spécifiée", et des centaines d'entre eux ont été dessinés.
En plus d'une simple disposition des carreaux, ces objets peuvent être combinés de manière plus créative.
Pour le concept contrefactuel d'astronaute à cheval, divers modèles d'OpenAI et de Google dans le passé ne pouvaient dessiner que des astronautes à cheval**.
Le document était généralement considéré comme un cas d’échec et a été ridiculisé par Marcus, le pessimiste de l’IA à l’époque.
Désormais, DALL·E 3 peut facilement le gérer avec le support de ChatGPT.
Les grands progrès de DALL·E 3 cette fois ne sont pas seulement le résultat des propres efforts d'OpenAI, mais aussi le résultat de la coopération conjointe entre ** et Microsoft**.
Bien que cela ne soit pas clairement indiqué, au moins trois ingénieurs et chercheurs Microsoft sont impliqués dans la partie recherche de la liste de contributions, et la plupart des membres de la partie optimisation des inférences sont issus de l'équipe Microsoft DeepSpeed .
En regardant GPT-4, il était encore principalement développé en interne par OpenAI, puis avait un accès libre à Microsoft et à d’autres instituts de recherche à des fins de test.
Ce changement de modèle de coopération** représente également un nouvel approfondissement de la relation entre les deux entreprises**.
Un tableau spécifie 50 objets
Confirmé par Mikhail Parakhin, PDG de Microsoft Bing, les quelques pour cent chanceux d'utilisateurs se sont déjà qualifiés pour le test.
Le nombre de places étant vraiment limité, les internautes impatients ont proposé leurs idées en ligne et demandé aux personnes disposant d'un compte de les aider à tester.
L'internaute qui a proposé de dessiner 50 objets différents voulait juste tester combien d'objets DALL·E 3 pouvait contenir dans une seule image, semblable à la "fenêtre contextuelle" du grand modèle de langage.
Nathan Shipley, un concepteur tiers qui a reçu une version préliminaire de l'étude, a relevé le défi.
Tout d’abord, il a demandé à ChatGPT de lister au hasard 50 objets du quotidien, puis a directement demandé de dessiner ces objets dans un tableau. Le mot d'invite complet est ChatGPT le complète tout seul, puis DALL·E 3 le dessine.
Nathan a ensuite demandé : « Pouvez-vous créer l’image d’un surfeur mettant ces objets en pile tout en surfant dur ? »
ChatGPT a ajouté quelques détails dans le mot d'invite :
Un surfeur polynésien d'âge moyen à la peau hâlée tient 50 objets pendant qu'il surfe dur, dont une tasse de thé, un vélo, un parapluie... et une expression de détermination et une légère panique alors que les vagues s'écrasent autour de lui. , essayant d'équilibrer ces objets et sa planche de surf.
En conséquence, j'ai obtenu une image qui répondait essentiellement aux exigences en un seul essai, sauf que l'expression du personnage ressemblait plus à une panique extrême qu'à une légère panique.
Plus tard, Nathan a demandé une perspective inférieure. Cette fois, ChatGPT a modifié la description du personnage dans le mot d'invite en "une femme espagnole âgée".
Les spectateurs ont trouvé cela très surprenant, mais ont également souligné pourquoi la taille du crayon était disproportionnée par rapport aux autres objets.
Certaines personnes pensent que le modèle sait seulement à quoi ressemble un objet, mais pas sa taille relative, d'autant plus que les photos publicitaires de stylos utilisent souvent des plans rapprochés.
De plus, Nathan a également demandé à ChatGPT quels paramètres de l'écran l'utilisateur peut contrôler.
ChatGPT a répondu comme suit :
décrire:
Vous pouvez fournir une description détaillée de l’image souhaitée. Plus vous serez précis et détaillé, plus l’image obtenue sera proche de vos souhaits.
Style et support :
Vous pouvez spécifier le style ou le support de l'image, tel que « Peinture », « Photo », « Illustration », « Dessin animé », « Aquarelle », « Rendu 3D », etc.
Résolution:
Par défaut, les images sont générées à une résolution de 1 729 x 1 024. Mais si votre description suggère un portrait en pied ou quelque chose de plus adapté aux formats d'image élevés, l'image sera générée à 1024 x 1792. Vous pouvez également demander une résolution carrée (1024x1024) si nécessaire.
Nombre de photos
: Si vous n'en spécifiez pas, je crée généralement quatre images différentes en fonction de votre description. Vous pouvez cependant demander un numéro précis (jusqu'à quatre).
Réviser
: Si vous n'êtes pas satisfait des premiers résultats, vous pouvez fournir des commentaires et demander des révisions. Bien que je ne puisse pas modifier directement les images existantes, je peux utiliser vos commentaires pour générer de nouvelles images qui correspondent mieux à votre vision.
Graine aléatoire
: Si vous souhaitez modifier une image précédente, je peux utiliser la graine dans les métadonnées de cette image pour générer une nouvelle version. Cela garantit une certaine cohérence entre les images originales et modifiées.
Veuillez noter,
Certaines limitations s'appliquent. Par exemple, les images de personnalités publiques et les styles d’artistes des 100 dernières années ne peuvent pas être créés directement.
L'accent est mis sur le dos :
**Cependant, je peux proposer des alternatives ou utiliser des adjectifs pour capturer l'essence d'un style particulier sans le citer directement. **
Puzzle d'astronaute équestre résolu
Parmi les employés internes d'OpenAI, Will DePue est le plus actif dans la divulgation des résultats de l'essai DALL·E 3.
Lors du test d'astronaute à cheval, il a déclaré que celui-ci n'avait pas été réussi à 100 %.
Vous pouvez y parvenir en deux ou trois tentatives, car GPT-4 travaille avec vous pour affiner les mots d'invite jusqu'à ce que vous y parveniez.
Avec quelques efforts, vous pouvez obtenir presque tout ce que vous voulez.
Certains internautes ont essayé d'utiliser MidJourney pour obtenir les mêmes résultats, mais on peut seulement dire que ce n'est pas totalement impossible, mais cela demande beaucoup d'efforts.
Presque impossible, nécessite beaucoup d’ingénierie d’indices et est difficile à reproduire.
Si vous êtes un utilisateur expérimenté de MidJourney, autant essayer de voir si cela fonctionne.
Dans le défi « 8 girafes qui boivent de l'eau » proposé par les internautes, DALL·E 3 a une fois de plus montré la faiblesse d'être difficile à compter avec précision.
△ Comptez combien de girafes il y a sur la photo
Des tentatives plus erronées ont également abouti à une girafe à deux têtes.
Faire compter correctement l'IA ne résout pas cette fois, mais au moins cela résout le problème de la compréhension des relations spatiales.
Dans le défi "Quatre zèbres courant dans la prairie, un lion poursuivant derrière et un aigle au-dessus, il n'y a pas d'autres animaux sur la photo" proposé par les internautes, la relation spatiale est fondamentalement correcte, mais il y a un supplément zèbre.
En comparaison, DALL·E 2 et Stable Diffusion ont une moins bonne compréhension des relations spatiales.
Adam Goldberg, responsable de la version entreprise de ChatGPT chez OpenAI, a également publié de nombreux résultats de haute qualité, mais n'a pas partagé les mots d'invite.
Jerry Tworek, responsable de l'écriture des codes d'IA et des outils d'appel, a créé de nombreuses peintures conceptuelles abstraites, telles que "Division of Mechanical Cells".
et "Arbres de programmes informatiques à travers la galaxie".
Microsoft OpenAI coopère
DALL·E 3 a fait une énorme amélioration cette fois-ci : en plus d'intégrer ChatGPT, comment se fait exactement la partie génération d'images ?
Malheureusement, étant donné la tendance de plus en plus proche d'OpenAI, il est probable qu'il ne publiera pas d'articles comme les deux générations précédentes. Nous ne pouvons faire que quelques suppositions à partir de la liste des contributions.
Il y a cinq auteurs dans l'article DALL·E 2.
Quant à DALL·E 3, quelles que soient les équipes produit, sécurité, communication publique et juridique, 18 personnes ont participé à la seule partie recherche.
Parmi eux se trouve Yang Song, un ancien élève de Tsinghua qui a proposé les modèles de cohérence.
Le modèle de cohérence est plus rapide que le modèle de diffusion le plus populaire et peut générer 64 256*256 images en 3,5 secondes.
Cependant, la contribution de Song Yang à la recherche est cette fois mineure. Il n'est pas sûr que DALL·E 3 ait utilisé le modèle de cohérence. Il est plus probable qu'il ait emprunté sa méthode au modèle de diffusion amélioré.
De plus, outre l'auteur de DALL·E 2 et Ouyang Long de l'équipe ChatGPT, au moins trois chercheurs viennent de Microsoft.
Le Dr Jianfeng Wang est diplômé de l'Université des sciences et technologies de Chine et est chercheur en chef chez Microsoft.
Dr Lijuan Wang est diplômé de l'Université Tsinghua et travaille en tant que directeur de recherche chez Microsoft.
Les deux ont participé aux recherches de NUWA-Ininity, une génération infinie d'images sur toile.
Lindsey Li (Lindsey Li) est une ancienne élève de l'Institut de technologie de Pékin. Elle a obtenu deux maîtrises de l'Université Purdue et de l'UC San Diego. Elle est chercheuse principale chez Microsoft et a publié de nombreux articles de conférence de premier plan dans le domaine de multimodalité.
En plus de la recherche, l'optimisation d'inférence de DALL·E 3 bénéficie de la forte participation de l'**équipe Microsoft DeepSpeed **.
Deepspeed est une bibliothèque open source d'optimisation d'apprentissage en profondeur qui réduit la consommation d'énergie de calcul et l'utilisation de la mémoire, et entraîne et déduit des modèles distribués à grande échelle grâce à un meilleur parallélisme sur le matériel existant.
Beaucoup d'entre eux ont exprimé leur plaisir de participer à ces travaux et étaient enthousiasmés par la sortie de DALL·E 3.
Enfin, parmi les contributions spéciales, le PDG de Bing Mikhail Parakhin de Microsoft et le Vice-président en chef d'Azure Cloud Misha Bilenko en font partie.
Microsoft a également confirmé dans ses activités de publication précédentes que Bing intégrera directement DALL·E 3.
Selon les règles actuelles, DALL·E 2 sur Bing est gratuit. 99 jetons d'accélération seront émis. Sans jetons, la file d'attente prendra simplement plus de temps.
Bien que DALL·E 3 coûtera 20 USD par mois sur ChatGPT Plus en octobre.
Mais comme GPT-4 est fourni gratuitement sur Bing, vous pouvez également vous attendre à une vague de DALL·E 3 free play à l'avenir~
Liens de référence :
[1]
[2]
[3]
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
DALL·E 3 sera lancé pour les tests ! Le problème des astronautes à cheval est résolu, 50 objets sont spécifiés dans un seul tableau et Microsoft est profondément impliqué dans la recherche comme jamais auparavant.
Source : Qubits
Peu importe si vous n'avez pas reçu la qualification : couplés à des aperçus de recherches tierces et à des essais internes réalisés par des employés d'OpenAI, divers cas de test ont émergé les uns après les autres, ce qui est garanti d'être agréable.
La plus exagérée est "50 objets différents apparaissent dans l'image spécifiée", et des centaines d'entre eux ont été dessinés.
Le document était généralement considéré comme un cas d’échec et a été ridiculisé par Marcus, le pessimiste de l’IA à l’époque.
Bien que cela ne soit pas clairement indiqué, au moins trois ingénieurs et chercheurs Microsoft sont impliqués dans la partie recherche de la liste de contributions, et la plupart des membres de la partie optimisation des inférences sont issus de l'équipe Microsoft DeepSpeed .
Ce changement de modèle de coopération** représente également un nouvel approfondissement de la relation entre les deux entreprises**.
Un tableau spécifie 50 objets
Confirmé par Mikhail Parakhin, PDG de Microsoft Bing, les quelques pour cent chanceux d'utilisateurs se sont déjà qualifiés pour le test.
L'internaute qui a proposé de dessiner 50 objets différents voulait juste tester combien d'objets DALL·E 3 pouvait contenir dans une seule image, semblable à la "fenêtre contextuelle" du grand modèle de langage.
Tout d’abord, il a demandé à ChatGPT de lister au hasard 50 objets du quotidien, puis a directement demandé de dessiner ces objets dans un tableau. Le mot d'invite complet est ChatGPT le complète tout seul, puis DALL·E 3 le dessine.
ChatGPT a ajouté quelques détails dans le mot d'invite :
Un surfeur polynésien d'âge moyen à la peau hâlée tient 50 objets pendant qu'il surfe dur, dont une tasse de thé, un vélo, un parapluie... et une expression de détermination et une légère panique alors que les vagues s'écrasent autour de lui. , essayant d'équilibrer ces objets et sa planche de surf.
En conséquence, j'ai obtenu une image qui répondait essentiellement aux exigences en un seul essai, sauf que l'expression du personnage ressemblait plus à une panique extrême qu'à une légère panique.
ChatGPT a répondu comme suit :
Vous pouvez fournir une description détaillée de l’image souhaitée. Plus vous serez précis et détaillé, plus l’image obtenue sera proche de vos souhaits.
Vous pouvez spécifier le style ou le support de l'image, tel que « Peinture », « Photo », « Illustration », « Dessin animé », « Aquarelle », « Rendu 3D », etc.
Par défaut, les images sont générées à une résolution de 1 729 x 1 024. Mais si votre description suggère un portrait en pied ou quelque chose de plus adapté aux formats d'image élevés, l'image sera générée à 1024 x 1792. Vous pouvez également demander une résolution carrée (1024x1024) si nécessaire.
: Si vous n'en spécifiez pas, je crée généralement quatre images différentes en fonction de votre description. Vous pouvez cependant demander un numéro précis (jusqu'à quatre).
: Si vous n'êtes pas satisfait des premiers résultats, vous pouvez fournir des commentaires et demander des révisions. Bien que je ne puisse pas modifier directement les images existantes, je peux utiliser vos commentaires pour générer de nouvelles images qui correspondent mieux à votre vision.
: Si vous souhaitez modifier une image précédente, je peux utiliser la graine dans les métadonnées de cette image pour générer une nouvelle version. Cela garantit une certaine cohérence entre les images originales et modifiées.
Certaines limitations s'appliquent. Par exemple, les images de personnalités publiques et les styles d’artistes des 100 dernières années ne peuvent pas être créés directement.
L'accent est mis sur le dos :
**Cependant, je peux proposer des alternatives ou utiliser des adjectifs pour capturer l'essence d'un style particulier sans le citer directement. **
Puzzle d'astronaute équestre résolu
Parmi les employés internes d'OpenAI, Will DePue est le plus actif dans la divulgation des résultats de l'essai DALL·E 3.
Lors du test d'astronaute à cheval, il a déclaré que celui-ci n'avait pas été réussi à 100 %.
Avec quelques efforts, vous pouvez obtenir presque tout ce que vous voulez.
Presque impossible, nécessite beaucoup d’ingénierie d’indices et est difficile à reproduire.
Si vous êtes un utilisateur expérimenté de MidJourney, autant essayer de voir si cela fonctionne.
Des tentatives plus erronées ont également abouti à une girafe à deux têtes.
Microsoft OpenAI coopère
DALL·E 3 a fait une énorme amélioration cette fois-ci : en plus d'intégrer ChatGPT, comment se fait exactement la partie génération d'images ?
Malheureusement, étant donné la tendance de plus en plus proche d'OpenAI, il est probable qu'il ne publiera pas d'articles comme les deux générations précédentes. Nous ne pouvons faire que quelques suppositions à partir de la liste des contributions.
Il y a cinq auteurs dans l'article DALL·E 2.
Le modèle de cohérence est plus rapide que le modèle de diffusion le plus populaire et peut générer 64 256*256 images en 3,5 secondes.
Cependant, la contribution de Song Yang à la recherche est cette fois mineure. Il n'est pas sûr que DALL·E 3 ait utilisé le modèle de cohérence. Il est plus probable qu'il ait emprunté sa méthode au modèle de diffusion amélioré.
De plus, outre l'auteur de DALL·E 2 et Ouyang Long de l'équipe ChatGPT, au moins trois chercheurs viennent de Microsoft.
Le Dr Jianfeng Wang est diplômé de l'Université des sciences et technologies de Chine et est chercheur en chef chez Microsoft.
Dr Lijuan Wang est diplômé de l'Université Tsinghua et travaille en tant que directeur de recherche chez Microsoft.
Les deux ont participé aux recherches de NUWA-Ininity, une génération infinie d'images sur toile.
Deepspeed est une bibliothèque open source d'optimisation d'apprentissage en profondeur qui réduit la consommation d'énergie de calcul et l'utilisation de la mémoire, et entraîne et déduit des modèles distribués à grande échelle grâce à un meilleur parallélisme sur le matériel existant.
Mais comme GPT-4 est fourni gratuitement sur Bing, vous pouvez également vous attendre à une vague de DALL·E 3 free play à l'avenir~
Liens de référence :
[1]
[2]
[3]