Tencent Technology News Le 7 juillet, le PDG de Midjourney, David Holz, a prononcé un discours lors de la Conférence mondiale sur l'intelligence artificielle 2023, affirmant que ** l'IA deviendra un nouveau vecteur et un nouveau moteur de créativité et d'imagination **. Grâce à l'IA, nous avons le potentiel d'amplifier l'imagination brute de toute la race humaine. En ce qui concerne le nom de la société Midjouney, Holz a déclaré qu'il vient du concept de la voie médiane dans le livre taoïste "Zhuang Zhou".Il pense que la littérature classique chinoise a apporté bon nombre des pensées les plus belles et les plus profondes.
À l'heure actuelle, Midjouney développe la version 5.3 et fournira une série de fonctionnalités de zoom et de panoramique pour générer automatiquement de nouvelles images liées à différents angles dans la version 6, et peut contrôler le caractère aléatoire des images générées, permettant à l'auteur d'être bizarre. équilibre entre la beauté et les images déconcertantes. À l'avenir, Midjourney vise à développer des images générées en trois dimensions, en temps réel et dynamiquement ajustables.
En ce qui concerne l'avenir de la technologie, il ne sait pas où cela pourrait aller. Mais le modèle de fusion (modèle image/texte pour la fusion) peut être une direction de développement plus probable. Il estime que le potentiel de progrès technologique de l'IA n'a pas été pleinement réalisé, qu'il est dix fois plus fort qu'il ne l'est actuellement et que cent fois le progrès est inévitable.
Il pense que la plupart des progrès technologiques réalisés jusqu'à présent proviennent de la tentative d'améliorer les gens, d'essayer d'amplifier les capacités humaines. Par conséquent, l'IAG n'est peut-être pas nécessaire.En tant qu'extension de nos êtres humains, l'IA est un meilleur choix pour autonomiser les êtres humains.
Ce qui suit est la transcription du discours :
Bonjour à tous, je suis David Holz, PDG et fondateur de Midjourney. Je suis honoré d'être invité par le gouvernement municipal de Shanghai à participer à la Conférence mondiale sur l'intelligence artificielle et j'ai hâte de participer à l'événement d'aujourd'hui.
L'une des technologies les plus importantes au monde est le moteur. Un moteur est une machine utilisée pour générer, transférer ou amplifier. Nous utilisons des moteurs pour construire toutes sortes de véhicules tels que des voitures, des avions et des bateaux dans diverses usines. Et maintenant, il est temps de considérer l'IA comme un nouveau type de moteur.
Chez MidJourney, nous essayons d'utiliser ce moteur pour créer un nouveau type de véhicule, qui n'est pas un véhicule, mais un véhicule qui porte notre pensée et notre imagination.
Comme si vous pouviez faire tourner le monde avec un ballon de football, mais que vous aviez encore besoin de jambes pour le frapper. Nous espérons créer un nouveau type de véhicule que vous pourrez utiliser pour imaginer, et pas seulement générer du mouvement. Avant de pouvoir créer, nous devons d'abord imaginer ce que nous pouvons être, où nous pouvons aller, ce qui est possible. Je pense que les outils que nous fabriquons, plus que toute autre chose, visent à amplifier le pouvoir primordial de l'imagination. Nous avons la possibilité d'amplifier non seulement n'importe quel individu, mais l'imagination de toute la race humaine. J'ai visité la Chine plusieurs fois avec Leap Motion (un appareil de reconnaissance gestuelle), et le premier bureau de Leap Motion est à Shanghai. Shanghai a une ambiance particulière que j'aime beaucoup, il semble être une combinaison de San Francisco, Los Angeles, New York et quelques vieilles villes européennes. Il a la force d'une histoire et d'une culture anciennes, mais a aussi un sens de l'avenir non raffiné. C'est vraiment cool, et ce sont deux de mes choses préférées.
En fait, je suis fondamentalement un lecteur avide de science-fiction, et les décors les plus fous que j'ai vus viennent des classiques chinois. Je pense que la littérature chinoise ancienne a les pensées les plus belles et les plus profondes de l'histoire humaine. Le nom MidJourney vient en fait d'une traduction d'un de mes anciens textes taoïstes préférés, de Zhuang Zhou. Par exemple, "Zhuang Zhou's Dream of a Butterfly", "Zi Fei Yu", "Paod Ding Jie Niu", "Wood of Unworthy Wood", "Empty Boat", j'aime ça. Ce que j'aime dans le nom MidJourney, c'est que je pense que les gens ont parfois tendance à oublier le passé et peuvent se sentir perdus et incertains quant à l'avenir. Mais j'ai plutôt l'impression que nous sommes en fait à mi-chemin, nous venons d'un passé riche et magnifique, et nous avons un avenir fou et incroyable devant nous.
Nous avons récemment publié la version 5.2 de Mid Journey et travaillons actuellement sur la version 5.3. ** Ensuite, j'espère publier une mise à jour majeure, qui, je l'espère, s'appellera la version 6. La dernière fonctionnalité que nous avons introduite concerne la mise à l'échelle de l'image, et lorsque vous effectuez un zoom arrière, vous pouvez créer différentes histoires et environnements qui changent autour d'un thème central. Cette semaine, nous publions une fonctionnalité similaire qui vous permet de déplacer la caméra, puis lorsque vous déplacez la caméra latéralement, vous pouvez continuer à changer de repère, puis raconter l'histoire, et nous publions ce système de contrôle sophistiqué qui combine ces nouvelles fonctionnalités pour un meilleur contrôle précis de la génération d'images.
Vous pouvez également combiner cela avec des contrôles de style. Le "contrôle du style" est un peu déroutant, mais l'idée est que vous voulez dire à l'IA à quel point vous voulez la générer et combien de risques vous prenez pour créer cette beauté. Même si ce n'est pas conventionnel, désordonné et bizarre, les résultats sont parfois vraiment remarquables.
Parfois, il faut être aventureux, et cela permet de contrôler l'équilibre entre le risque et le caractère aléatoire de la beauté, ou l'attention portée à la beauté générale d'une image. Nous avons également introduit quelque chose que nous appelons le mode turbo. Le mode Turbo est l'endroit où nous utilisons le GPU autant que possible, ce qui rend la génération d'image très rapide. Cela rend la génération 4 à 5 fois plus rapide. Ce mode donne l'impression que vous utilisez 64 ou plus de 100 GPU pour générer des images. Pour atteindre cette puissance de calcul, votre ordinateur doit valoir environ 500 000 dollars américains. Cela semble un peu fou, et nous travaillons sur des choses encore plus folles. Alors que la plupart d'entre eux sont encore en préparation, nous pensons qu'avec le temps, Midjourney évoluera pour créer non seulement des images 2D, mais aussi des images 3D, des images animées et vous pourrez même interagir avec les pixels eux-mêmes. À l'avenir, vous pourrez peut-être redistribuer et remodeler ce que vous dessinez en temps réel.
On a juste besoin d'un processeur d'IA aussi massif, puis il peut imaginer tous les mondes différents, et les rêves peuvent interagir avec nos esprits. Et nous sommes en train de rêver à travers cela (IA), et ça va être vraiment cool. La découverte séquentielle du modèle Diffusion, du modèle Transformer et du modèle Clip a en fait permis à l'IA d'entrer dans l'espace de l'image. Il y a environ 2 ans, avant la sortie de tout service d'IA d'image, tous nos chercheurs communiquaient à San Francisco, je me souviens avoir dit que ces modèles, en particulier le modèle Diffusion, apporteraient certainement quelque chose de complètement différent. Il existe également la technologie de réseau de confrontation générative, qui est la technologie de base que tout le monde utilisait auparavant pour générer des images.
Je me souviens juste que tout le monde avait immédiatement hoché la tête d'une manière inhabituelle, disant que le modèle Diffusion était vraiment différent. C'était un moment très sérieux, et j'avais un fort sentiment que je devais m'impliquer et apporter une interface utilisateur plus humaine à cette technologie.
Mais en ce qui concerne l'avenir, il est difficile de savoir avec certitude comment la technologie évoluera. Parfois, nous parlons de la façon de transformer le modèle de langage en modèle de diffusion maintenant, c'est-à-dire d'utiliser le modèle de diffusion pour créer du texte. Ou le modèle d'image deviendra plus comme un modèle de langage. Comment cela est-il réalisé ? Le terme technique pour cette approche est Transformateur autorégressif, ou l'IA évoluera vers un modèle hybride. Mais c'est vraiment difficile à dire. Je pense que nous n'en sommes qu'au début de ce changement, mais je suis sûr à 100% qu'il y a beaucoup de progrès à faire. Une amélioration décuplé, centuplée est susceptible d'être inévitable.
Cette avancée ne concerne pas seulement les performances, mais également les interfaces utilisateur et les produits qui nous permettent de mieux utiliser ces technologies. Individuellement et collectivement, on peut créer des trucs vraiment cool qui résolvent mieux les problèmes. Douglas Engelbart a été le premier à créer un éditeur de texte. Initialement, les ordinateurs étaient programmés en perforant des cartes ou en trouant des cartes. Mais Douglas a commencé à réfléchir à ce qui se passerait si nous programmions des ordinateurs, ce qui semblait fou à l'époque. Son idée était qu'en programmant des ordinateurs sur des ordinateurs, nous pourrions accélérer ce cycle, améliorer ce que nous faisons, rendre les ordinateurs plus puissants, tout amplifier. Cette idée est finalement devenue réalité. Même si nous avons ces différentes cultures comme l'IA, l'interface homme-machine, la culture des applications intelligentes, je pense que la plupart des progrès technologiques jusqu'à présent sont venus d'essayer de rendre les gens meilleurs, d'essayer d'amplifier les capacités humaines.
Nous n'avons pas vraiment vu venir l'ère de l'IA, où nous aurons une IA indépendante pour résoudre les problèmes. Mais si nous pensons trop à aller dans cette direction, nous risquons de rater de nombreuses opportunités qui existent dans le domaine de la technologie. Je réfléchis non seulement à ce que l'IA peut faire, mais aussi à la façon de créer de la fluidité et de l'enchevêtrement entre différentes choses. Parce qu'un outil ne doit pas ressembler à une personne, il doit ressembler à une extension de vous-même, de votre corps, de votre esprit. Je réfléchis à la façon de construire ces technologies où les humains et l'IA s'entremêlent pour que vous n'ayez pas l'impression de collaborer avec un artiste, mais plutôt que vous imaginiez quelque chose et que c'est à l'écran. Beaucoup de gens décrivent mon parcours comme si ces destinations faisaient partie de leur réflexion. Je pense que c'est ce que la plupart des IA devraient être, cela devrait être une extension de nous-mêmes.
Je tiens donc à remercier encore une fois M. Chen et toute l'assistance. WAIC est plutôt cool et j'espère pouvoir y assister en personne à l'avenir et faire partie de cet événement. J'attends avec impatience une plus grande coopération avec la Chine, je me souviens de toutes les merveilleuses expériences personnelles que j'y ai vécues et j'espère que tout le monde pourra également profiter du plaisir d'interagir là-bas. Merci.
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
PDG de Midjourney : l'IA devrait être une extension de nous-mêmes
Tencent Technology News Le 7 juillet, le PDG de Midjourney, David Holz, a prononcé un discours lors de la Conférence mondiale sur l'intelligence artificielle 2023, affirmant que ** l'IA deviendra un nouveau vecteur et un nouveau moteur de créativité et d'imagination **. Grâce à l'IA, nous avons le potentiel d'amplifier l'imagination brute de toute la race humaine. En ce qui concerne le nom de la société Midjouney, Holz a déclaré qu'il vient du concept de la voie médiane dans le livre taoïste "Zhuang Zhou".Il pense que la littérature classique chinoise a apporté bon nombre des pensées les plus belles et les plus profondes.
À l'heure actuelle, Midjouney développe la version 5.3 et fournira une série de fonctionnalités de zoom et de panoramique pour générer automatiquement de nouvelles images liées à différents angles dans la version 6, et peut contrôler le caractère aléatoire des images générées, permettant à l'auteur d'être bizarre. équilibre entre la beauté et les images déconcertantes. À l'avenir, Midjourney vise à développer des images générées en trois dimensions, en temps réel et dynamiquement ajustables.
En ce qui concerne l'avenir de la technologie, il ne sait pas où cela pourrait aller. Mais le modèle de fusion (modèle image/texte pour la fusion) peut être une direction de développement plus probable. Il estime que le potentiel de progrès technologique de l'IA n'a pas été pleinement réalisé, qu'il est dix fois plus fort qu'il ne l'est actuellement et que cent fois le progrès est inévitable.
Il pense que la plupart des progrès technologiques réalisés jusqu'à présent proviennent de la tentative d'améliorer les gens, d'essayer d'amplifier les capacités humaines. Par conséquent, l'IAG n'est peut-être pas nécessaire.En tant qu'extension de nos êtres humains, l'IA est un meilleur choix pour autonomiser les êtres humains.
Ce qui suit est la transcription du discours :
Bonjour à tous, je suis David Holz, PDG et fondateur de Midjourney. Je suis honoré d'être invité par le gouvernement municipal de Shanghai à participer à la Conférence mondiale sur l'intelligence artificielle et j'ai hâte de participer à l'événement d'aujourd'hui.
L'une des technologies les plus importantes au monde est le moteur. Un moteur est une machine utilisée pour générer, transférer ou amplifier. Nous utilisons des moteurs pour construire toutes sortes de véhicules tels que des voitures, des avions et des bateaux dans diverses usines. Et maintenant, il est temps de considérer l'IA comme un nouveau type de moteur.
Chez MidJourney, nous essayons d'utiliser ce moteur pour créer un nouveau type de véhicule, qui n'est pas un véhicule, mais un véhicule qui porte notre pensée et notre imagination.
Comme si vous pouviez faire tourner le monde avec un ballon de football, mais que vous aviez encore besoin de jambes pour le frapper. Nous espérons créer un nouveau type de véhicule que vous pourrez utiliser pour imaginer, et pas seulement générer du mouvement. Avant de pouvoir créer, nous devons d'abord imaginer ce que nous pouvons être, où nous pouvons aller, ce qui est possible. Je pense que les outils que nous fabriquons, plus que toute autre chose, visent à amplifier le pouvoir primordial de l'imagination. Nous avons la possibilité d'amplifier non seulement n'importe quel individu, mais l'imagination de toute la race humaine. J'ai visité la Chine plusieurs fois avec Leap Motion (un appareil de reconnaissance gestuelle), et le premier bureau de Leap Motion est à Shanghai. Shanghai a une ambiance particulière que j'aime beaucoup, il semble être une combinaison de San Francisco, Los Angeles, New York et quelques vieilles villes européennes. Il a la force d'une histoire et d'une culture anciennes, mais a aussi un sens de l'avenir non raffiné. C'est vraiment cool, et ce sont deux de mes choses préférées.
En fait, je suis fondamentalement un lecteur avide de science-fiction, et les décors les plus fous que j'ai vus viennent des classiques chinois. Je pense que la littérature chinoise ancienne a les pensées les plus belles et les plus profondes de l'histoire humaine. Le nom MidJourney vient en fait d'une traduction d'un de mes anciens textes taoïstes préférés, de Zhuang Zhou. Par exemple, "Zhuang Zhou's Dream of a Butterfly", "Zi Fei Yu", "Paod Ding Jie Niu", "Wood of Unworthy Wood", "Empty Boat", j'aime ça. Ce que j'aime dans le nom MidJourney, c'est que je pense que les gens ont parfois tendance à oublier le passé et peuvent se sentir perdus et incertains quant à l'avenir. Mais j'ai plutôt l'impression que nous sommes en fait à mi-chemin, nous venons d'un passé riche et magnifique, et nous avons un avenir fou et incroyable devant nous.
Nous avons récemment publié la version 5.2 de Mid Journey et travaillons actuellement sur la version 5.3. ** Ensuite, j'espère publier une mise à jour majeure, qui, je l'espère, s'appellera la version 6. La dernière fonctionnalité que nous avons introduite concerne la mise à l'échelle de l'image, et lorsque vous effectuez un zoom arrière, vous pouvez créer différentes histoires et environnements qui changent autour d'un thème central. Cette semaine, nous publions une fonctionnalité similaire qui vous permet de déplacer la caméra, puis lorsque vous déplacez la caméra latéralement, vous pouvez continuer à changer de repère, puis raconter l'histoire, et nous publions ce système de contrôle sophistiqué qui combine ces nouvelles fonctionnalités pour un meilleur contrôle précis de la génération d'images.
Vous pouvez également combiner cela avec des contrôles de style. Le "contrôle du style" est un peu déroutant, mais l'idée est que vous voulez dire à l'IA à quel point vous voulez la générer et combien de risques vous prenez pour créer cette beauté. Même si ce n'est pas conventionnel, désordonné et bizarre, les résultats sont parfois vraiment remarquables.
Parfois, il faut être aventureux, et cela permet de contrôler l'équilibre entre le risque et le caractère aléatoire de la beauté, ou l'attention portée à la beauté générale d'une image. Nous avons également introduit quelque chose que nous appelons le mode turbo. Le mode Turbo est l'endroit où nous utilisons le GPU autant que possible, ce qui rend la génération d'image très rapide. Cela rend la génération 4 à 5 fois plus rapide. Ce mode donne l'impression que vous utilisez 64 ou plus de 100 GPU pour générer des images. Pour atteindre cette puissance de calcul, votre ordinateur doit valoir environ 500 000 dollars américains. Cela semble un peu fou, et nous travaillons sur des choses encore plus folles. Alors que la plupart d'entre eux sont encore en préparation, nous pensons qu'avec le temps, Midjourney évoluera pour créer non seulement des images 2D, mais aussi des images 3D, des images animées et vous pourrez même interagir avec les pixels eux-mêmes. À l'avenir, vous pourrez peut-être redistribuer et remodeler ce que vous dessinez en temps réel.
On a juste besoin d'un processeur d'IA aussi massif, puis il peut imaginer tous les mondes différents, et les rêves peuvent interagir avec nos esprits. Et nous sommes en train de rêver à travers cela (IA), et ça va être vraiment cool. La découverte séquentielle du modèle Diffusion, du modèle Transformer et du modèle Clip a en fait permis à l'IA d'entrer dans l'espace de l'image. Il y a environ 2 ans, avant la sortie de tout service d'IA d'image, tous nos chercheurs communiquaient à San Francisco, je me souviens avoir dit que ces modèles, en particulier le modèle Diffusion, apporteraient certainement quelque chose de complètement différent. Il existe également la technologie de réseau de confrontation générative, qui est la technologie de base que tout le monde utilisait auparavant pour générer des images.
Je me souviens juste que tout le monde avait immédiatement hoché la tête d'une manière inhabituelle, disant que le modèle Diffusion était vraiment différent. C'était un moment très sérieux, et j'avais un fort sentiment que je devais m'impliquer et apporter une interface utilisateur plus humaine à cette technologie.
Mais en ce qui concerne l'avenir, il est difficile de savoir avec certitude comment la technologie évoluera. Parfois, nous parlons de la façon de transformer le modèle de langage en modèle de diffusion maintenant, c'est-à-dire d'utiliser le modèle de diffusion pour créer du texte. Ou le modèle d'image deviendra plus comme un modèle de langage. Comment cela est-il réalisé ? Le terme technique pour cette approche est Transformateur autorégressif, ou l'IA évoluera vers un modèle hybride. Mais c'est vraiment difficile à dire. Je pense que nous n'en sommes qu'au début de ce changement, mais je suis sûr à 100% qu'il y a beaucoup de progrès à faire. Une amélioration décuplé, centuplée est susceptible d'être inévitable.
Cette avancée ne concerne pas seulement les performances, mais également les interfaces utilisateur et les produits qui nous permettent de mieux utiliser ces technologies. Individuellement et collectivement, on peut créer des trucs vraiment cool qui résolvent mieux les problèmes. Douglas Engelbart a été le premier à créer un éditeur de texte. Initialement, les ordinateurs étaient programmés en perforant des cartes ou en trouant des cartes. Mais Douglas a commencé à réfléchir à ce qui se passerait si nous programmions des ordinateurs, ce qui semblait fou à l'époque. Son idée était qu'en programmant des ordinateurs sur des ordinateurs, nous pourrions accélérer ce cycle, améliorer ce que nous faisons, rendre les ordinateurs plus puissants, tout amplifier. Cette idée est finalement devenue réalité. Même si nous avons ces différentes cultures comme l'IA, l'interface homme-machine, la culture des applications intelligentes, je pense que la plupart des progrès technologiques jusqu'à présent sont venus d'essayer de rendre les gens meilleurs, d'essayer d'amplifier les capacités humaines.
Nous n'avons pas vraiment vu venir l'ère de l'IA, où nous aurons une IA indépendante pour résoudre les problèmes. Mais si nous pensons trop à aller dans cette direction, nous risquons de rater de nombreuses opportunités qui existent dans le domaine de la technologie. Je réfléchis non seulement à ce que l'IA peut faire, mais aussi à la façon de créer de la fluidité et de l'enchevêtrement entre différentes choses. Parce qu'un outil ne doit pas ressembler à une personne, il doit ressembler à une extension de vous-même, de votre corps, de votre esprit. Je réfléchis à la façon de construire ces technologies où les humains et l'IA s'entremêlent pour que vous n'ayez pas l'impression de collaborer avec un artiste, mais plutôt que vous imaginiez quelque chose et que c'est à l'écran. Beaucoup de gens décrivent mon parcours comme si ces destinations faisaient partie de leur réflexion. Je pense que c'est ce que la plupart des IA devraient être, cela devrait être une extension de nous-mêmes.
Je tiens donc à remercier encore une fois M. Chen et toute l'assistance. WAIC est plutôt cool et j'espère pouvoir y assister en personne à l'avenir et faire partie de cet événement. J'attends avec impatience une plus grande coopération avec la Chine, je me souviens de toutes les merveilleuses expériences personnelles que j'y ai vécues et j'espère que tout le monde pourra également profiter du plaisir d'interagir là-bas. Merci.