Título original: "AIGC: Bajo el recrudecimiento, ¿dónde está la frontera?丨GAIR 2023》
Desde hacer dibujos hasta escribir poemas, desde redacción publicitaria hasta elaboración de tablas, desde PPT hasta escribir códigos, si alguien dijera que la IA puede hacer todas estas tareas hace más de diez meses, pocas personas le creerían.
Sin embargo, la velocidad del desarrollo tecnológico siempre es explosiva. Antes de que termine 2023, la ola de IA generativa ha barrido todo el círculo tecnológico, fascinando a las personas y acudiendo en masa.
En la 7ª Conferencia Global de Inteligencia Artificial y Robótica de GAIR, patrocinada conjuntamente por el Instituto de Investigación GAIR, Leifeng.com, la Editorial Mundial de Ciencia y Tecnología y el Grupo Consultor Kotler, todos los grandes nombres en el campo AIGC se reunieron en el Hotel Orchard en Singapur para presentar El mundo comparte sus conocimientos más recientes y de primera mano sobre IA generativa.
Los ponentes que participaron en el GAIR AIGC y el subforo de contenidos generativos son:
Pan Xingang, Profesor Asistente, Facultad de Informática e Ingeniería, Universidad Tecnológica de Nanyang
Congxing Cai, Fundador de joinrealm.ai
Fundador de la comunidad Help&Grow en Singapur, Wang Tong
Lizhi Group CTO, Ding Ning
Investigador científico sénior, Universidad Tecnológica de Nanyang; Fundador, Deepir Inc., Wu Pengcheng
Director del Centro de algoritmos de publicación de juegos en el extranjero de Tencent, Lang Jun
En la pista actual de IA, ¿cómo mantener la mente clara y refinar las innovaciones en tecnología, productos y modelos comerciales? ¿Cuáles son las percepciones de los invitados a la reunión, para que puedan cabalgar sobre el viento y las olas en el auge de la IA generativa?
Universidad Tecnológica de Nanyang Pan Xingang: Arrastra y suelta los puntos clave del contenido visual, no usamos el modelo de difusión
Cuando se trata de AIGC, en la pista actual, todos siempre pensarán en MidJourney, que tiene una alta calificación en el extranjero, y el soporte técnico detrás de él: el modelo de difusión.
Sin embargo, Pan Xingang, profesor asistente de la Escuela de Informática e Ingeniería de la Universidad Tecnológica de Nanyang, que una vez estudió con el profesor Tang Xiaoou en Hong Kong, ha abandonado de manera decisiva el modelo de difusión en su última "edición de arrastrar y soltar de clave". puntos de contenido visual". Se utiliza una técnica más "antigua": la red de confrontación generativa (GAN).
Muchas personas ven la poderosa capacidad de la IA para generar imágenes y piensan que ha llegado la era de AIGC; pero Pan Xingang descubrió que "generar imágenes" a menudo no es el último paso en el proceso creativo del usuario.
Los ajustes posteriores a la imagen, especialmente los elementos de imagen generados por IA, a menudo están llenos de incertidumbre. Para satisfacer las necesidades de los usuarios, es necesario permitir que el usuario ajuste cada elemento de la imagen en la etapa posterior.
Por ejemplo, AI ha generado un león muy realista. Si los usuarios quieren girar la cabeza del león, mover su posición o incluso cambiar la expresión del león, es difícil hacerlo en la forma del producto actual.
Estas operaciones suenan simples, pero tienen que ver con el control fino de las propiedades espaciales de los objetos, y aún enfrentan enormes desafíos técnicos.
En el pasado, había una manera de seguir la idea del diagrama de Vincent, para editar la imagen de acuerdo con la guía del texto, por ejemplo, "mover la nariz del león a la derecha 30 píxeles".
Pero también hay problemas con esta solución:
Por un lado, el modelo de texto debe tener una comprensión lo suficientemente sólida de los atributos espaciales de los objetos para satisfacer las diversas necesidades y métodos de edición de los usuarios y hacer que la interacción sea más intuitiva;
Por otro lado, para un modelo de lenguaje, es difícil comprender con precisión la longitud y el tamaño de una imagen, lo que también genera muchos problemas para la edición de contenido visual.
A nivel de interacción, para los usuarios, la más intuitiva y fácil de usar es sin duda la interacción de arrastrar y soltar; a nivel de implementación técnica, los usuarios solo necesitan especificar un punto de agarre rojo y un punto de destino azul, y el AI La parte semántica de la imagen correspondiente al punto rojo se mueve a la posición del punto azul para lograr el efecto de editar los atributos espaciales de la imagen.
En el pasado, algunas personas han desarrollado funciones similares, pero por lo general la imagen que se va a editar debe ser mallada, y hay ciertas suposiciones sobre la altura del objeto: la imagen editada es solo una distorsión 2D de la imagen original, hay no no se puede generar nuevo contenido.
Debe ser tanto preciso como generar contenido. Pan Xingang no utilizó el modelo de difusión actual más popular al realizar la investigación técnica y el juicio, sino que eligió la tecnología de la red de confrontación generativa. En primer lugar, el espacio de imagen descrito por GAN es muy continuo, mucho más continuo que el modelo de difusión; en segundo lugar, el espacio latente del contacto de GAN es muy adecuado para editar atributos.
Con el mayor desarrollo de la investigación del equipo de Pan Xingang, apoyaron la edición multipunto sobre la base del original, que puede cambiar la postura de los objetos en la imagen, rediseñar la forma de un automóvil o cambiar la perspectiva de un automóvil. , para que un gatito abra un ojo y cierre un ojo, cambie el peinado o la expresión, la postura o el largo de la ropa del retrato, para que el usuario pueda editar la imagen más cómodamente, e incluso completar la generación de contenido de video de esta manera.
En la actualidad, este trabajo ha sido de código abierto en GitHub y ha obtenido 32.000 estrellas.
En el futuro, la combinación de GAN y el modelo de difusión es la visión de Pan Xingang para el trabajo que se está realizando, no solo la capacidad de generación del modelo de difusión, sino también las ventajas de GAN en la edición de imágenes, y también puede ser posible aplicar estas capacidades. a video y contenido en 3D y 4D, el futuro AIGC será más inteligente y fácil de usar.
joinrealm.ai Congxing Cai: construye una red social basada en AIGC
Congxing Cai de joinrealm.ai tiene el sueño de ser una red social AIGC.
Se unió a Snapchat alrededor de 2016 y fue responsable del desarrollo de productos de videos cortos en la empresa. Cai Congxing ha experimentado el período de desarrollo de ultra alta velocidad de la industria de videos cortos. Y después de que TikTok se convirtió en un producto fenomenal en el extranjero sin ninguna disputa, Cai Congxing tuvo otros pensamientos:
"Creemos que en el camino del contenido de video corto productivo, todos ya se han movido en una dirección determinada; y en el futuro, en el campo del video generativo, la industria definitivamente tendrá un nuevo avance".
Así que Congxing Cai y sus amigos fundaron joinrealm.ai.
Cai Congxing cree que AIGC es un concepto particularmente amplio y abstracto, y la dirección de joinrealm.ai se encuentra principalmente en el punto medio entre "proporcionar API directamente" y "completar la innovación de la interacción humano-computadora": la exploración del modelo de negocio. de creación de contenidos.
"¿Por qué es importante el modo de creación de contenido? Según nuestra observación de videos cortos en los últimos diez años, un gran cambio se debe en realidad a la aparición de cámaras inteligentes. La popularidad de las cámaras inteligentes, en gran medida, no es solo que en lugar de dar a todos un teléfono móvil, le dio al mundo miles de millones de infraestructura móvil".
De "palabra" a "historia" es una clave fundamental del espíritu empresarial de joinrealm.ai: con la ayuda de la IA, los usuarios pueden presentar el contenido en sus mentes como imágenes, como una "cámara pensante".
Para lograr este efecto, Cai Congxing descubrió en la exploración de joinrealm.ai que aún quedan muchos problemas por resolver:
En primer lugar, todavía hay diferencias con el lenguaje natural: en el análisis final, sigue siendo un lenguaje de programación que es difícil de entender para el público de manera intuitiva. para generar el contenido que quieren;
En segundo lugar, el modelo básico aún no puede satisfacer plenamente las necesidades de los usuarios de AIGC hoy en día.Tomando como ejemplo Stable Diffusion, la proporción de nuevos usuarios que están dispuestos a compartir el contenido generado es probablemente inferior al 20% en la actualidad;
La falta de conceptos que puedan ser ajustados por los usuarios también es el primer gran problema que enfrenta AIGC en la actualidad.Es difícil para los usuarios controlar la generación de IA a través de un conjunto de conceptos definidos, y también es difícil controlar la suya propia. "narración";
Finalmente, es el equilibrio de eficiencia entre los resultados de la generación de imágenes y el costo.Cómo generar contenido de mayor calidad a un precio más bajo también es un tema que AIGC no puede ignorar en este momento.
Para enfrentar estos desafíos, Cai Congxing y su equipo se reunieron con casi cien creadores de inteligencia artificial influyentes y descubrieron que la mayoría de sus métodos de producción son únicos y rara vez iguales, y todos usan una gran cantidad de herramientas para depurar y ajustar continuamente.
Al final, joinrealm.ai decidió completar la actualización en tres puntos clave después de la investigación y el juicio:
El primero es la cadena de herramientas, que mejora la experiencia del usuario al completar la optimización de la interfaz de usuario;
El segundo es permitir que los usuarios construyan su propia sintonía. Por ejemplo, utilizando la descripción de "I", el producto puede generar la imagen que desean con mayor precisión en función de la propia imagen del usuario.
El tercero es construir una comunidad por ti mismo, para que los usuarios puedan obtener más enseñanza e inspiración en la comunidad.
Discusión de mesa redonda: AIGC "Going Global"
Wang Tong, fundador de la comunidad Help&Grow en Singapur, actuó como moderador y discutió con Cai Congxing, fundador de joinrealm.ai, Ding Ning, CTO de Lychee Group, Wu Pengcheng, científico investigador sénior de la Universidad Tecnológica de Nanyang y fundador de Deepir Inc. y Lang Jun, director de Tencent Overseas Game Publishing Algorithm Center El tema candente actual de AIGC y el contenido generativo.
¿Es más fácil para el modelo de comercialización de AIGC aterrizar en el campo To B o en el campo To C? Los invitados imaginaron el punto de apoyo futuro en base a sus propias experiencias.
Lang Jun cree que To B no es fácil de hacer, porque una solución debe abstraerse y refinarse en función de múltiples casos reales diferentes. En términos de To C, puede ayudar a muchos jugadores a integrarse rápidamente en el juego cuando lo operan. juego. Al trabajar internamente en el algoritmo, Lang Jun y el equipo también evaluarán constantemente qué tipo de modelo puede profundizar mejor la escena del aterrizaje AIGC.
Wu Pengcheng dijo que tanto To B como To C tienen oportunidades, pero una gran empresa debe ser To C. Combinó la cámara Miaoya, las gafas VR de Apple, la transmisión digital humana en vivo y otras compañías que han logrado logros a nivel de ToC este año, y enfatizó que AIGC To C dará lugar a muchas aplicaciones interesantes.
Ding Ning cree que la comercialización de AIGC aún se encuentra en una etapa inicial. Aunque hay algunas empresas que han tomado la delantera en la consecución de logros, la mayoría de ellas todavía están en camino. Enfatizó especialmente que para los empresarios de tecnología, no solo deben estar inmersos en el toque de la tecnología, sino que también deben considerar más las necesidades y los puntos débiles de los usuarios. En cuanto a la implementación de To B y To C, dijo que To B tiene un gran mercado y necesita capacidades y recursos, mientras que To C tiene una gran competencia y requiere un gran sentido del mercado y la capacidad de operar la comunidad. prometedor en el futuro amplio.
Con respecto a la internacionalización y la globalización de AIGC, varios invitados compartieron sus experiencias.
Lang Jun observó que el equipo nacional tiene una ventaja de talento muy densa, canales eficientes para compartir conocimientos y un gran interés en la industria de Internet. De hecho, no hay muchos recursos para esta asignación en el extranjero. Enfatizó que actualmente AIGC no tiene un modelo de negocios particularmente maduro, por lo que quien tenga una mejor capacidad para combinar recursos tendrá más probabilidades de “agotarse”.
Ding Ning cree que cuando AIGC sale al extranjero, primero debe salir y bajar su cifra. No necesariamente tiene que lograr un cierto nivel de producto. Se da cuenta de que es difícil tener éxito en el mercado de una sola vez dentro de dos o tres años. Agregó que es muy importante respetar el mercado exterior, hay grandes diferencias de cultura, idioma, leyes y reglamentos, y es necesario tener un claro entendimiento del mercado local.
Wu Pengcheng cree que existe una gran oportunidad para que AIGC vaya al extranjero. Por un lado, la tecnología china se puede usar en el extranjero; por otro lado, los países extranjeros también tienen necesidades locales. Los dos pueden estar profundamente integrados, lo que generará enormes valor. Al mismo tiempo, también debe tenerse en cuenta que hacerse a la mar es solo el primer paso, y también es necesario considerar cómo viajar mejor al extranjero.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Gran debate cafetalero AIGC: cómo montar el viento y las olas en el auge de la IA
Fuente: Lei Feng Net
Autor: Dong Zibo Wang Yue
Título original: "AIGC: Bajo el recrudecimiento, ¿dónde está la frontera?丨GAIR 2023》
Desde hacer dibujos hasta escribir poemas, desde redacción publicitaria hasta elaboración de tablas, desde PPT hasta escribir códigos, si alguien dijera que la IA puede hacer todas estas tareas hace más de diez meses, pocas personas le creerían.
Sin embargo, la velocidad del desarrollo tecnológico siempre es explosiva. Antes de que termine 2023, la ola de IA generativa ha barrido todo el círculo tecnológico, fascinando a las personas y acudiendo en masa.
En la 7ª Conferencia Global de Inteligencia Artificial y Robótica de GAIR, patrocinada conjuntamente por el Instituto de Investigación GAIR, Leifeng.com, la Editorial Mundial de Ciencia y Tecnología y el Grupo Consultor Kotler, todos los grandes nombres en el campo AIGC se reunieron en el Hotel Orchard en Singapur para presentar El mundo comparte sus conocimientos más recientes y de primera mano sobre IA generativa.
Los ponentes que participaron en el GAIR AIGC y el subforo de contenidos generativos son:
En la pista actual de IA, ¿cómo mantener la mente clara y refinar las innovaciones en tecnología, productos y modelos comerciales? ¿Cuáles son las percepciones de los invitados a la reunión, para que puedan cabalgar sobre el viento y las olas en el auge de la IA generativa?
Universidad Tecnológica de Nanyang Pan Xingang: Arrastra y suelta los puntos clave del contenido visual, no usamos el modelo de difusión
Cuando se trata de AIGC, en la pista actual, todos siempre pensarán en MidJourney, que tiene una alta calificación en el extranjero, y el soporte técnico detrás de él: el modelo de difusión.
Muchas personas ven la poderosa capacidad de la IA para generar imágenes y piensan que ha llegado la era de AIGC; pero Pan Xingang descubrió que "generar imágenes" a menudo no es el último paso en el proceso creativo del usuario.
Los ajustes posteriores a la imagen, especialmente los elementos de imagen generados por IA, a menudo están llenos de incertidumbre. Para satisfacer las necesidades de los usuarios, es necesario permitir que el usuario ajuste cada elemento de la imagen en la etapa posterior.
Por ejemplo, AI ha generado un león muy realista. Si los usuarios quieren girar la cabeza del león, mover su posición o incluso cambiar la expresión del león, es difícil hacerlo en la forma del producto actual.
Estas operaciones suenan simples, pero tienen que ver con el control fino de las propiedades espaciales de los objetos, y aún enfrentan enormes desafíos técnicos.
En el pasado, había una manera de seguir la idea del diagrama de Vincent, para editar la imagen de acuerdo con la guía del texto, por ejemplo, "mover la nariz del león a la derecha 30 píxeles".
Pero también hay problemas con esta solución:
Por un lado, el modelo de texto debe tener una comprensión lo suficientemente sólida de los atributos espaciales de los objetos para satisfacer las diversas necesidades y métodos de edición de los usuarios y hacer que la interacción sea más intuitiva;
Por otro lado, para un modelo de lenguaje, es difícil comprender con precisión la longitud y el tamaño de una imagen, lo que también genera muchos problemas para la edición de contenido visual.
A nivel de interacción, para los usuarios, la más intuitiva y fácil de usar es sin duda la interacción de arrastrar y soltar; a nivel de implementación técnica, los usuarios solo necesitan especificar un punto de agarre rojo y un punto de destino azul, y el AI La parte semántica de la imagen correspondiente al punto rojo se mueve a la posición del punto azul para lograr el efecto de editar los atributos espaciales de la imagen.
Debe ser tanto preciso como generar contenido. Pan Xingang no utilizó el modelo de difusión actual más popular al realizar la investigación técnica y el juicio, sino que eligió la tecnología de la red de confrontación generativa. En primer lugar, el espacio de imagen descrito por GAN es muy continuo, mucho más continuo que el modelo de difusión; en segundo lugar, el espacio latente del contacto de GAN es muy adecuado para editar atributos.
Con el mayor desarrollo de la investigación del equipo de Pan Xingang, apoyaron la edición multipunto sobre la base del original, que puede cambiar la postura de los objetos en la imagen, rediseñar la forma de un automóvil o cambiar la perspectiva de un automóvil. , para que un gatito abra un ojo y cierre un ojo, cambie el peinado o la expresión, la postura o el largo de la ropa del retrato, para que el usuario pueda editar la imagen más cómodamente, e incluso completar la generación de contenido de video de esta manera.
En el futuro, la combinación de GAN y el modelo de difusión es la visión de Pan Xingang para el trabajo que se está realizando, no solo la capacidad de generación del modelo de difusión, sino también las ventajas de GAN en la edición de imágenes, y también puede ser posible aplicar estas capacidades. a video y contenido en 3D y 4D, el futuro AIGC será más inteligente y fácil de usar.
joinrealm.ai Congxing Cai: construye una red social basada en AIGC
Congxing Cai de joinrealm.ai tiene el sueño de ser una red social AIGC.
"Creemos que en el camino del contenido de video corto productivo, todos ya se han movido en una dirección determinada; y en el futuro, en el campo del video generativo, la industria definitivamente tendrá un nuevo avance".
Así que Congxing Cai y sus amigos fundaron joinrealm.ai.
Cai Congxing cree que AIGC es un concepto particularmente amplio y abstracto, y la dirección de joinrealm.ai se encuentra principalmente en el punto medio entre "proporcionar API directamente" y "completar la innovación de la interacción humano-computadora": la exploración del modelo de negocio. de creación de contenidos.
"¿Por qué es importante el modo de creación de contenido? Según nuestra observación de videos cortos en los últimos diez años, un gran cambio se debe en realidad a la aparición de cámaras inteligentes. La popularidad de las cámaras inteligentes, en gran medida, no es solo que en lugar de dar a todos un teléfono móvil, le dio al mundo miles de millones de infraestructura móvil".
De "palabra" a "historia" es una clave fundamental del espíritu empresarial de joinrealm.ai: con la ayuda de la IA, los usuarios pueden presentar el contenido en sus mentes como imágenes, como una "cámara pensante".
En primer lugar, todavía hay diferencias con el lenguaje natural: en el análisis final, sigue siendo un lenguaje de programación que es difícil de entender para el público de manera intuitiva. para generar el contenido que quieren;
En segundo lugar, el modelo básico aún no puede satisfacer plenamente las necesidades de los usuarios de AIGC hoy en día.Tomando como ejemplo Stable Diffusion, la proporción de nuevos usuarios que están dispuestos a compartir el contenido generado es probablemente inferior al 20% en la actualidad;
La falta de conceptos que puedan ser ajustados por los usuarios también es el primer gran problema que enfrenta AIGC en la actualidad.Es difícil para los usuarios controlar la generación de IA a través de un conjunto de conceptos definidos, y también es difícil controlar la suya propia. "narración";
Finalmente, es el equilibrio de eficiencia entre los resultados de la generación de imágenes y el costo.Cómo generar contenido de mayor calidad a un precio más bajo también es un tema que AIGC no puede ignorar en este momento.
Para enfrentar estos desafíos, Cai Congxing y su equipo se reunieron con casi cien creadores de inteligencia artificial influyentes y descubrieron que la mayoría de sus métodos de producción son únicos y rara vez iguales, y todos usan una gran cantidad de herramientas para depurar y ajustar continuamente.
Al final, joinrealm.ai decidió completar la actualización en tres puntos clave después de la investigación y el juicio:
El primero es la cadena de herramientas, que mejora la experiencia del usuario al completar la optimización de la interfaz de usuario;
El segundo es permitir que los usuarios construyan su propia sintonía. Por ejemplo, utilizando la descripción de "I", el producto puede generar la imagen que desean con mayor precisión en función de la propia imagen del usuario.
El tercero es construir una comunidad por ti mismo, para que los usuarios puedan obtener más enseñanza e inspiración en la comunidad.
Discusión de mesa redonda: AIGC "Going Global"
Wang Tong, fundador de la comunidad Help&Grow en Singapur, actuó como moderador y discutió con Cai Congxing, fundador de joinrealm.ai, Ding Ning, CTO de Lychee Group, Wu Pengcheng, científico investigador sénior de la Universidad Tecnológica de Nanyang y fundador de Deepir Inc. y Lang Jun, director de Tencent Overseas Game Publishing Algorithm Center El tema candente actual de AIGC y el contenido generativo.
Lang Jun cree que To B no es fácil de hacer, porque una solución debe abstraerse y refinarse en función de múltiples casos reales diferentes. En términos de To C, puede ayudar a muchos jugadores a integrarse rápidamente en el juego cuando lo operan. juego. Al trabajar internamente en el algoritmo, Lang Jun y el equipo también evaluarán constantemente qué tipo de modelo puede profundizar mejor la escena del aterrizaje AIGC.
Wu Pengcheng dijo que tanto To B como To C tienen oportunidades, pero una gran empresa debe ser To C. Combinó la cámara Miaoya, las gafas VR de Apple, la transmisión digital humana en vivo y otras compañías que han logrado logros a nivel de ToC este año, y enfatizó que AIGC To C dará lugar a muchas aplicaciones interesantes.
Ding Ning cree que la comercialización de AIGC aún se encuentra en una etapa inicial. Aunque hay algunas empresas que han tomado la delantera en la consecución de logros, la mayoría de ellas todavía están en camino. Enfatizó especialmente que para los empresarios de tecnología, no solo deben estar inmersos en el toque de la tecnología, sino que también deben considerar más las necesidades y los puntos débiles de los usuarios. En cuanto a la implementación de To B y To C, dijo que To B tiene un gran mercado y necesita capacidades y recursos, mientras que To C tiene una gran competencia y requiere un gran sentido del mercado y la capacidad de operar la comunidad. prometedor en el futuro amplio.
Con respecto a la internacionalización y la globalización de AIGC, varios invitados compartieron sus experiencias.
Lang Jun observó que el equipo nacional tiene una ventaja de talento muy densa, canales eficientes para compartir conocimientos y un gran interés en la industria de Internet. De hecho, no hay muchos recursos para esta asignación en el extranjero. Enfatizó que actualmente AIGC no tiene un modelo de negocios particularmente maduro, por lo que quien tenga una mejor capacidad para combinar recursos tendrá más probabilidades de “agotarse”.
Ding Ning cree que cuando AIGC sale al extranjero, primero debe salir y bajar su cifra. No necesariamente tiene que lograr un cierto nivel de producto. Se da cuenta de que es difícil tener éxito en el mercado de una sola vez dentro de dos o tres años. Agregó que es muy importante respetar el mercado exterior, hay grandes diferencias de cultura, idioma, leyes y reglamentos, y es necesario tener un claro entendimiento del mercado local.
Wu Pengcheng cree que existe una gran oportunidad para que AIGC vaya al extranjero. Por un lado, la tecnología china se puede usar en el extranjero; por otro lado, los países extranjeros también tienen necesidades locales. Los dos pueden estar profundamente integrados, lo que generará enormes valor. Al mismo tiempo, también debe tenerse en cuenta que hacerse a la mar es solo el primer paso, y también es necesario considerar cómo viajar mejor al extranjero.