El 7 de julio, el director ejecutivo de Midjourney, David Holz, habló en la Conferencia Mundial de Inteligencia Artificial de 2023 y argumentó que la IA se convertirá en un nuevo vehículo y motor de la creatividad y la imaginación. A través de la IA, tenemos el potencial de amplificar la imaginación en bruto de toda la raza humana. Sobre el nombre de la empresa Midjouney, Holz afirmó que proviene del concepto del camino medio en el libro taoísta "Zhuang Zhou" y cree que la literatura clásica china ha traído muchos de los pensamientos más hermosos y profundos.
En la actualidad, Midjouney está desarrollando la versión 5.3 y proporcionará una serie de capacidades de zoom y panorámica para generar automáticamente nuevas imágenes relacionadas con diferentes ángulos en la versión 6, y puede controlar la aleatoriedad de las imágenes generadas, lo que permite que el autor sea extraño. equilibrio entre la belleza y las imágenes desconcertantes. En el futuro, Midjourney tiene como objetivo desarrollar imágenes generadas tridimensionales, en tiempo real y dinámicamente ajustables.
En cuanto al futuro de la tecnología, no está seguro de hacia dónde podría ir. Pero el modelo de fusión (modelo de imagen/texto para fusión) puede ser una dirección de desarrollo más probable. Él cree que el potencial del progreso tecnológico de la IA no se ha realizado por completo, y es diez veces más fuerte de lo que es ahora, y cien veces el progreso es inevitable.
Él cree que la mayor parte del progreso en tecnología hasta ahora proviene de tratar de mejorar a las personas, tratando de ampliar las capacidades humanas. Por lo tanto, AGI puede no ser necesario Como una extensión de nuestros seres humanos, AI es una mejor opción para empoderar a los seres humanos.
La siguiente es la transcripción del discurso:
Hola a todos, soy David Holz, CEO y fundador de Midjourney. Me siento honrado de ser invitado por el Gobierno Municipal de Shanghái para participar en la Conferencia Mundial sobre Inteligencia Artificial y espero unirme al evento de hoy.
Una de las tecnologías más importantes del mundo es el motor. Un motor es una máquina utilizada para generar, transferir o amplificar. Usamos motores para construir todo tipo de vehículos como automóviles, aviones y barcos en varias fábricas. Y ahora es el momento de pensar en la IA como un nuevo tipo de motor.
En MidJourney, estamos tratando de usar este motor para crear un nuevo tipo de vehículo, que no es un vehículo, sino un vehículo que transporta nuestro pensamiento e imaginación.
Como si pudieras darle la vuelta al mundo con un balón de fútbol, pero aún necesitas piernas para patearlo. Esperamos crear un nuevo tipo de vehículo que puedas usar para imaginar, no solo para generar movimiento. Antes de que podamos crear, primero debemos imaginar lo que podemos ser, adónde podemos ir, lo que es posible. Creo que las herramientas que hacemos, más que nada, están enfocadas en amplificar el poder primordial de la imaginación. Tenemos la oportunidad de amplificar no solo a cualquier individuo, sino la imaginación de toda la raza humana. He visitado China muchas veces con Leap Motion (un dispositivo de reconocimiento de gestos) y la primera oficina de Leap Motion está en Shanghái. Shanghai tiene una sensación especial que me gusta mucho, parece ser una combinación de San Francisco, Los Ángeles, Nueva York y algunas ciudades europeas antiguas. Tiene la fuerza de una historia y cultura antiguas, pero también tiene un sentido del futuro sin refinar. Es realmente genial, y son dos de mis cosas favoritas.
De hecho, básicamente soy un ávido lector de ciencia ficción, y los escenarios más locos que he visto provienen de los clásicos chinos. Creo que la literatura china antigua tiene los pensamientos más bellos y profundos de la historia humana. El nombre MidJourney en realidad proviene de una traducción de uno de mis textos taoístas antiguos favoritos, de Zhuang Zhou. Por ejemplo, "El sueño de una mariposa de Zhuang Zhou", "Zi Fei Yu", "Paod Ding Jie Niu", "Madera de madera indigna", "Barco vacío", me gustan estos. Lo que me gusta del nombre MidJourney es que creo que las personas tienden a olvidar el pasado a veces y pueden sentirse perdidos e inseguros sobre el futuro. Pero siento más que estamos en un viaje a mitad de camino, venimos de un pasado rico y hermoso, y tenemos un futuro salvaje e increíble por delante.
Recientemente lanzamos la versión 5.2 de Mid Journey y actualmente estamos trabajando en la versión 5.3. Después, espero lanzar una actualización importante, que espero se llame versión 6. La función más reciente que presentamos tiene que ver con el escalado de imágenes y, a medida que se aleja, puede crear diferentes historias y entornos que cambian en torno a un tema central. Esta semana estamos lanzando una función similar que le permite mover la cámara y luego, mientras mueve la cámara hacia los lados, puede seguir cambiando la señal y luego contar la historia, y estamos lanzando este elegante sistema de control que combina estas nuevas características para un mejor control fino sobre la generación de imágenes.
También puede combinar esto con controles de estilo. El "control de estilo" es un poco confuso, pero la idea es que quieras decirle a la IA qué tan hermoso quieres generarlo y cuánto riesgo corres para crear esa belleza. Incluso si es poco convencional, desordenado y extraño, a veces los resultados son realmente notables.
A veces es necesario ser aventurero, y esto permite controlar el equilibrio entre el riesgo y la aleatoriedad de la belleza, o cuánta atención se presta a la belleza general de una imagen. También hemos introducido algo que llamamos modo turbo. El modo Turbo es donde usamos la GPU tanto como sea posible, lo que hace que la generación de imágenes sea muy rápida. Esto hace que la generación sea de 4 a 5 veces más rápida. Este modo hace que parezca que estás usando 64 o más de 100 GPU para generar imágenes. Para lograr este poder de cómputo, su computadora debería valer alrededor de 500,000 dólares estadounidenses. Eso suena un poco loco, y estamos trabajando en otros aún más locos. Si bien la mayoría de ellos aún se están gestando, creemos que, con el tiempo, Midjourney evolucionará para crear no solo imágenes en 2D, sino también imágenes en 3D, imágenes en movimiento e incluso podrá interactuar con los píxeles mismos. En el futuro, tal vez pueda redistribuir y remodelar lo que dibuje en tiempo real.
Uno solo necesita un procesador de IA tan masivo, y luego puede soñar con todos los mundos diferentes, y los sueños pueden interactuar con nuestras mentes. Y estamos soñando con eso (AI), y eso va a ser realmente genial. El descubrimiento secuencial del modelo de difusión, el modelo de transformador y el modelo de clip en realidad permitió que la IA ingresara al espacio de la imagen. Hace aproximadamente 2 años, antes de que saliera cualquier servicio de IA de imágenes, todos nuestros investigadores se comunicaban en San Francisco. Recuerdo haber dicho que estos modelos, especialmente el modelo Diffusion, definitivamente traerían algo completamente diferente. También existe la tecnología de red de confrontación generativa, que es la tecnología básica que todos usaban antes para generar imágenes.
Solo recuerdo que todos asintieron de inmediato de una manera inusual, diciendo que el modelo Diffusion era realmente diferente. Fue un momento muy serio, y tenía la fuerte sensación de que tenía que involucrarme y traer una interfaz de usuario más humana a esta tecnología.
Pero en cuanto al futuro, es difícil saber con certeza cómo se desarrollará la tecnología. A veces hablamos de cómo cambiar el modelo de lenguaje al modelo de Difusión ahora, es decir, usar el modelo de Difusión para hacer texto. O el modelo de imagen se volverá más como un modelo de lenguaje. ¿Cómo se logra esto? El término técnico para este enfoque es Transformador autorregresivo, o la IA se desarrollará hacia un modelo híbrido. Pero es muy difícil saberlo. Creo que solo estamos al comienzo de este cambio, pero estoy 100% seguro de que hay mucho progreso por hacer. Es probable que una mejora de diez o de cien veces sea inevitable.
Este avance no es solo en el rendimiento, sino también en las interfaces de usuario y los productos que nos permiten utilizar mejor estas tecnologías. Tanto individualmente como colectivamente pueden hacer cosas geniales que resuelvan mejor los problemas. Douglas Engelbart fue la primera persona en crear un editor de texto. Inicialmente, las computadoras se programaban perforando tarjetas o perforando tarjetas. Pero Douglas comenzó a pensar en lo que sucedería si programáramos computadoras, lo que sonaba loco en ese momento. Su idea era que al programar computadoras en computadoras podríamos acelerar este ciclo, mejorar lo que hacemos, hacer que las computadoras sean más poderosas, amplificar todo. Esta idea finalmente se hizo realidad. A pesar de que tenemos estas diferentes culturas como la IA, la interfaz hombre-máquina, la cultura de la aplicación inteligente, creo que la mayor parte del progreso en tecnología hasta ahora proviene de tratar de mejorar a las personas, de tratar de ampliar las capacidades humanas.
Realmente no hemos visto venir la era de la IA, en la que tendremos problemas de resolución de IA independientes. Pero si pensamos demasiado en avanzar en esa dirección, podemos perder muchas de las oportunidades que existen en la tecnología. Pienso no solo en lo que la IA puede hacer, sino también en cómo crear fluidez y enredo entre diferentes cosas. Porque una herramienta no debe sentirse como una persona, debe sentirse como una extensión de ti mismo, tu cuerpo, tu mente. Estoy pensando en cómo construir estas tecnologías donde los humanos y la IA se entrelazan para que no se sienta como si estuvieras colaborando con un artista, sino más bien como si estuvieras imaginando algo y está en la pantalla. Mucha gente describe mi viaje como si esos destinos fueran parte de su pensamiento. Creo que así es como debería ser la mayoría de la IA, debería ser una extensión de nosotros mismos.
Así que quiero agradecer nuevamente al Sr. Chen ya toda la audiencia. WAIC es genial y espero poder asistir en persona en el futuro y ser parte de este evento. Espero una mayor cooperación con China, recuerdo todas las maravillosas experiencias personales que tuve allí y espero que todos puedan disfrutar de la diversión de interactuar allí también.
Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Último discurso del CEO de Midjourney, David Holz: La IA es una extensión de nosotros mismos
Fuente: Tecnología Tencent
El 7 de julio, el director ejecutivo de Midjourney, David Holz, habló en la Conferencia Mundial de Inteligencia Artificial de 2023 y argumentó que la IA se convertirá en un nuevo vehículo y motor de la creatividad y la imaginación. A través de la IA, tenemos el potencial de amplificar la imaginación en bruto de toda la raza humana. Sobre el nombre de la empresa Midjouney, Holz afirmó que proviene del concepto del camino medio en el libro taoísta "Zhuang Zhou" y cree que la literatura clásica china ha traído muchos de los pensamientos más hermosos y profundos.
En la actualidad, Midjouney está desarrollando la versión 5.3 y proporcionará una serie de capacidades de zoom y panorámica para generar automáticamente nuevas imágenes relacionadas con diferentes ángulos en la versión 6, y puede controlar la aleatoriedad de las imágenes generadas, lo que permite que el autor sea extraño. equilibrio entre la belleza y las imágenes desconcertantes. En el futuro, Midjourney tiene como objetivo desarrollar imágenes generadas tridimensionales, en tiempo real y dinámicamente ajustables.
En cuanto al futuro de la tecnología, no está seguro de hacia dónde podría ir. Pero el modelo de fusión (modelo de imagen/texto para fusión) puede ser una dirección de desarrollo más probable. Él cree que el potencial del progreso tecnológico de la IA no se ha realizado por completo, y es diez veces más fuerte de lo que es ahora, y cien veces el progreso es inevitable.
Él cree que la mayor parte del progreso en tecnología hasta ahora proviene de tratar de mejorar a las personas, tratando de ampliar las capacidades humanas. Por lo tanto, AGI puede no ser necesario Como una extensión de nuestros seres humanos, AI es una mejor opción para empoderar a los seres humanos.
La siguiente es la transcripción del discurso:
Hola a todos, soy David Holz, CEO y fundador de Midjourney. Me siento honrado de ser invitado por el Gobierno Municipal de Shanghái para participar en la Conferencia Mundial sobre Inteligencia Artificial y espero unirme al evento de hoy.
Una de las tecnologías más importantes del mundo es el motor. Un motor es una máquina utilizada para generar, transferir o amplificar. Usamos motores para construir todo tipo de vehículos como automóviles, aviones y barcos en varias fábricas. Y ahora es el momento de pensar en la IA como un nuevo tipo de motor.
En MidJourney, estamos tratando de usar este motor para crear un nuevo tipo de vehículo, que no es un vehículo, sino un vehículo que transporta nuestro pensamiento e imaginación.
Como si pudieras darle la vuelta al mundo con un balón de fútbol, pero aún necesitas piernas para patearlo. Esperamos crear un nuevo tipo de vehículo que puedas usar para imaginar, no solo para generar movimiento. Antes de que podamos crear, primero debemos imaginar lo que podemos ser, adónde podemos ir, lo que es posible. Creo que las herramientas que hacemos, más que nada, están enfocadas en amplificar el poder primordial de la imaginación. Tenemos la oportunidad de amplificar no solo a cualquier individuo, sino la imaginación de toda la raza humana. He visitado China muchas veces con Leap Motion (un dispositivo de reconocimiento de gestos) y la primera oficina de Leap Motion está en Shanghái. Shanghai tiene una sensación especial que me gusta mucho, parece ser una combinación de San Francisco, Los Ángeles, Nueva York y algunas ciudades europeas antiguas. Tiene la fuerza de una historia y cultura antiguas, pero también tiene un sentido del futuro sin refinar. Es realmente genial, y son dos de mis cosas favoritas.
De hecho, básicamente soy un ávido lector de ciencia ficción, y los escenarios más locos que he visto provienen de los clásicos chinos. Creo que la literatura china antigua tiene los pensamientos más bellos y profundos de la historia humana. El nombre MidJourney en realidad proviene de una traducción de uno de mis textos taoístas antiguos favoritos, de Zhuang Zhou. Por ejemplo, "El sueño de una mariposa de Zhuang Zhou", "Zi Fei Yu", "Paod Ding Jie Niu", "Madera de madera indigna", "Barco vacío", me gustan estos. Lo que me gusta del nombre MidJourney es que creo que las personas tienden a olvidar el pasado a veces y pueden sentirse perdidos e inseguros sobre el futuro. Pero siento más que estamos en un viaje a mitad de camino, venimos de un pasado rico y hermoso, y tenemos un futuro salvaje e increíble por delante.
Recientemente lanzamos la versión 5.2 de Mid Journey y actualmente estamos trabajando en la versión 5.3. Después, espero lanzar una actualización importante, que espero se llame versión 6. La función más reciente que presentamos tiene que ver con el escalado de imágenes y, a medida que se aleja, puede crear diferentes historias y entornos que cambian en torno a un tema central. Esta semana estamos lanzando una función similar que le permite mover la cámara y luego, mientras mueve la cámara hacia los lados, puede seguir cambiando la señal y luego contar la historia, y estamos lanzando este elegante sistema de control que combina estas nuevas características para un mejor control fino sobre la generación de imágenes.
También puede combinar esto con controles de estilo. El "control de estilo" es un poco confuso, pero la idea es que quieras decirle a la IA qué tan hermoso quieres generarlo y cuánto riesgo corres para crear esa belleza. Incluso si es poco convencional, desordenado y extraño, a veces los resultados son realmente notables.
A veces es necesario ser aventurero, y esto permite controlar el equilibrio entre el riesgo y la aleatoriedad de la belleza, o cuánta atención se presta a la belleza general de una imagen. También hemos introducido algo que llamamos modo turbo. El modo Turbo es donde usamos la GPU tanto como sea posible, lo que hace que la generación de imágenes sea muy rápida. Esto hace que la generación sea de 4 a 5 veces más rápida. Este modo hace que parezca que estás usando 64 o más de 100 GPU para generar imágenes. Para lograr este poder de cómputo, su computadora debería valer alrededor de 500,000 dólares estadounidenses. Eso suena un poco loco, y estamos trabajando en otros aún más locos. Si bien la mayoría de ellos aún se están gestando, creemos que, con el tiempo, Midjourney evolucionará para crear no solo imágenes en 2D, sino también imágenes en 3D, imágenes en movimiento e incluso podrá interactuar con los píxeles mismos. En el futuro, tal vez pueda redistribuir y remodelar lo que dibuje en tiempo real.
Uno solo necesita un procesador de IA tan masivo, y luego puede soñar con todos los mundos diferentes, y los sueños pueden interactuar con nuestras mentes. Y estamos soñando con eso (AI), y eso va a ser realmente genial. El descubrimiento secuencial del modelo de difusión, el modelo de transformador y el modelo de clip en realidad permitió que la IA ingresara al espacio de la imagen. Hace aproximadamente 2 años, antes de que saliera cualquier servicio de IA de imágenes, todos nuestros investigadores se comunicaban en San Francisco. Recuerdo haber dicho que estos modelos, especialmente el modelo Diffusion, definitivamente traerían algo completamente diferente. También existe la tecnología de red de confrontación generativa, que es la tecnología básica que todos usaban antes para generar imágenes.
Solo recuerdo que todos asintieron de inmediato de una manera inusual, diciendo que el modelo Diffusion era realmente diferente. Fue un momento muy serio, y tenía la fuerte sensación de que tenía que involucrarme y traer una interfaz de usuario más humana a esta tecnología.
Pero en cuanto al futuro, es difícil saber con certeza cómo se desarrollará la tecnología. A veces hablamos de cómo cambiar el modelo de lenguaje al modelo de Difusión ahora, es decir, usar el modelo de Difusión para hacer texto. O el modelo de imagen se volverá más como un modelo de lenguaje. ¿Cómo se logra esto? El término técnico para este enfoque es Transformador autorregresivo, o la IA se desarrollará hacia un modelo híbrido. Pero es muy difícil saberlo. Creo que solo estamos al comienzo de este cambio, pero estoy 100% seguro de que hay mucho progreso por hacer. Es probable que una mejora de diez o de cien veces sea inevitable.
Este avance no es solo en el rendimiento, sino también en las interfaces de usuario y los productos que nos permiten utilizar mejor estas tecnologías. Tanto individualmente como colectivamente pueden hacer cosas geniales que resuelvan mejor los problemas. Douglas Engelbart fue la primera persona en crear un editor de texto. Inicialmente, las computadoras se programaban perforando tarjetas o perforando tarjetas. Pero Douglas comenzó a pensar en lo que sucedería si programáramos computadoras, lo que sonaba loco en ese momento. Su idea era que al programar computadoras en computadoras podríamos acelerar este ciclo, mejorar lo que hacemos, hacer que las computadoras sean más poderosas, amplificar todo. Esta idea finalmente se hizo realidad. A pesar de que tenemos estas diferentes culturas como la IA, la interfaz hombre-máquina, la cultura de la aplicación inteligente, creo que la mayor parte del progreso en tecnología hasta ahora proviene de tratar de mejorar a las personas, de tratar de ampliar las capacidades humanas.
Realmente no hemos visto venir la era de la IA, en la que tendremos problemas de resolución de IA independientes. Pero si pensamos demasiado en avanzar en esa dirección, podemos perder muchas de las oportunidades que existen en la tecnología. Pienso no solo en lo que la IA puede hacer, sino también en cómo crear fluidez y enredo entre diferentes cosas. Porque una herramienta no debe sentirse como una persona, debe sentirse como una extensión de ti mismo, tu cuerpo, tu mente. Estoy pensando en cómo construir estas tecnologías donde los humanos y la IA se entrelazan para que no se sienta como si estuvieras colaborando con un artista, sino más bien como si estuvieras imaginando algo y está en la pantalla. Mucha gente describe mi viaje como si esos destinos fueran parte de su pensamiento. Creo que así es como debería ser la mayoría de la IA, debería ser una extensión de nosotros mismos.
Así que quiero agradecer nuevamente al Sr. Chen ya toda la audiencia. WAIC es genial y espero poder asistir en persona en el futuro y ser parte de este evento. Espero una mayor cooperación con China, recuerdo todas las maravillosas experiencias personales que tuve allí y espero que todos puedan disfrutar de la diversión de interactuar allí también.