El dibujo de AI de Ali se probó internamente, lo que conmocionó a algunas grandes fábricas.

2023-07-09 01:51:30

Autor: Du Wei, Zenan

**Para preguntar a la Conferencia Mundial de Inteligencia Artificial WAIC de este año, ¿quién es el protagonista? La megamodelo de IA se lo merece. **

La conferencia duró tres días y varias empresas e instituciones dieron a conocer sucesivamente más de 30 modelos grandes.

Los modelos de lenguaje son indispensables en esta fiesta de modelos grandes. Por supuesto, también hay modelos de pintura a gran escala que a menudo traen a las personas un impacto visual. No, en el campo del dibujo de IA, otro jugador nacional ha entrado en el campo.

Tres meses después del lanzamiento del modelo de lenguaje grande Tongyi Qianwen, también llegó el modelo grande de creación de pintura AI de Ali, y se basa en el modelo generativo combinado de desarrollo propio Composer.

En la conferencia WAIC del 7 de julio, la familia de modelos a gran escala Alibaba Cloud Tongyi presentó a su último miembro "Tongyi Wanxiang".

WAIC *En el foro temático de "MaaS: un nuevo paradigma para el desarrollo de IA centrado en modelos" de Alibaba Cloud, apareció Tongyi Wanxiang. *

Su efecto de imagen de generación de texto es así, y la velocidad de generación es muy rápida.

Tongyi Wanxiang también puede generar una nueva imagen de otro estilo específico para una imagen original.

También hay un juego de anidación de muñecas, que genera algunas imágenes similares para una imagen original.

Ali dijo que Tongyi Wanxiang tiene la capacidad de generar gráficos y gráficos, que pueden ayudar a los humanos en la creación de imágenes y reducir en gran medida el umbral para el diseño de imágenes. En el futuro, también se podrá aplicar a escenarios de aplicación como el diseño artístico, los juegos y la creación cultural.

Actualmente, el modelo ha abierto pruebas de invitación direccional.

Antes de que ChatGPT se hiciera popular, el tema más popular en el campo de la IA era el dibujo de la IA. El modelo de difusión ha dado un gran paso adelante a la IA generativa.Durante un tiempo, ha habido una gran cantidad de modelos de IA que ingresan texto y generan imágenes de varios estilos. Posteriormente, aparecieron más formas de generar imágenes a partir de imágenes y convertir imágenes a estilos específicos, lo que deslumbró y maravilló a la gente con la magia de la IA generativa.

En el gran escenario de WAIC, Ali lanzó este artefacto de IA que puede generar gráficos además de gráficos. Se puede ver que tiene mucha confianza en su efecto de generación.

Después de obtener la calificación de experiencia, el corazón de la máquina, por supuesto, debe probarlo primero.

Tongyi Wanxiang Medida real: jugabilidad diversificada, un disparo es una obra maestra

¿Este nuevo modelo de la familia Tongyi ha traído cambios al campo del dibujo con IA? Hablamos con resultados.

Actualmente, Tongyi Wanxiang ha lanzado las tres funciones de generación de imágenes de texto, generación de imágenes similares y transferencia de estilo de imagen.

Comencemos con la generación estándar de texto a imagen. En Wenshengtu, puede elegir entre varios estilos, como acuarela, pintura al óleo, pintura china, ilustración plana, bidimensional, boceto, dibujos animados en 3D, etc. Después de ingresar una descripción de texto y seleccionar un estilo, AI puede generar automáticamente una imagen creativa. Al mismo tiempo, para mayor comodidad de uso, la relación de la imagen de salida tiene tres opciones: 1:1, 16:9 y 9:16.

Comencemos con algo menos complicado. Elegimos un conjunto de palabras de "Tianjingsha · Autumn Thoughts" de Ma Zhiyuan, uno de los cuatro maestros de Yuanqu, para describir "pequeños puentes, agua que fluye y casas", y elegimos "pintura china". por el estilo

Como resultado, Tongyi Wanxiang nos mostró completamente pinturas llenas de encanto antiguo, ricas en detalles, y agregó algunos elementos que no estaban en la descripción, como montañas distantes y patos nadando en el agua.

También podríamos cambiar dos estilos nuevamente, esta vez elegir "boceto" y "pintura al óleo". Tongyi Wanxiang puede cambiar libremente en varios estilos, y los bocetos y pinturas al óleo generados son igualmente asombrosos. No es exagerado decir que estas imágenes son de un nivel que se puede usar directamente.

Deje que otro conjunto de texto describa "un gato en un traje espacial, espacio, viajes, cielo estrellado", esta vez elija "bidimensional" y "dibujos animados en 3D" para el estilo. El efecto es claro de un vistazo, especialmente el grupo de estilo de dibujos animados en 3D, los gatos son tan lindos.

Arriba: 2D; Abajo: caricatura en 3D

Aquí de repente quiero comparar Tongyi Wanxiang con la famosa Stable Diffusion. La misma descripción de texto se traduce al inglés como "gato en un traje espacial, espacio, viaje, cielo estrellado", y luego se agrega "estilo de cartón 3D", la imagen generada es la siguiente.

Inesperadamente, Tongyi Wanxiang ganó esta ola. Los gatos generados por Stable Diffusion eran demasiado abstractos o demasiado realistas y no mostraban un estilo de dibujos animados en 3D.

Dado que una descripción de texto simple no es difícil para Tongyi Wanxiang, hagámoslo difícil.

Esta vez hay una sección más larga de "una chica japonesa con cabello castaño lacio, piel clara, vestida con un vestido, encaje y lazo, cargando una pequeña bolsa, sonriendo", y el estilo es "bidimensional". Me gustaría preguntarles a los amigos a quienes les gusta la segunda dimensión, ¿estas imágenes generadas coinciden con las chicas japonesas que tienen en mente?

Otro conjunto de descripciones en un estilo mágico es "surrealismo, textura excepcional, resolución 4k, cyberpunk, acorazado, majestuoso, humo, gigantes de metal, armas láser, renderizador de octano", y el estilo es "pintura al óleo". Mirando las imágenes a continuación, hay una sensación de tensión en la batalla del fin del mundo.

Volvemos a poner la misma descripción en Stable Diffusion. En términos de riqueza de detalles, Stable Diffusion es mejor, pero su estilo de imagen se ve gris y no le da a las personas una fuerte sensación de impacto de color. Y es un estilo más realista, que es ligeramente diferente del surrealismo.

Parece que al menos en la pista de Wen Shengtu, Tongyi Wanxiang parece estar completamente dominado. La gente no puede evitar suspirar, la capacidad de la IA generativa en el campo del dibujo ha ido evolucionando.

A continuación, hablaremos sobre la función de generación de imágenes de similitud de Tongyi Wanxiang. Los usuarios solo necesitan proporcionar una imagen de referencia para obtener pinturas de IA con contenido y estilo similares. Cabe señalar aquí que el tamaño de la imagen cargada debe ser inferior a 10M, y el formato es compatible con JPG, JPEG, PNG, BMP, etc.

Primero pongamos una pieza de Musk, un visitante frecuente del mundo del dibujo de IA, para ver cómo se ve el "Fenke" de Musk a los ojos de Tongyi Wanxiang. En comparación con el cuerpo real de Musk, la imagen generada es más antigua, pero la sonrisa es igualmente alegre.

Otra imagen de paisaje, el efecto generado es muy bueno. El arroyo gorgotea y el agua también está salpicada de más hojas caídas, lo que no es inferior a la imagen original.

En la experiencia, el corazón de la máquina también encontró que las imágenes generadas por el significado general del texto Wanxiang pueden generar imágenes similares directamente. Aquí, uno de los "gatos en trajes espaciales" de estilo de dibujos animados en 3D anteriores se selecciona como la imagen original. Tan pronto como aparecen los resultados, los gatos generados son más lindos y los elementos de fondo son más abundantes.

Finalmente mira la función de migración de estilo. Solo necesita cargar la imagen original que desea cambiar el estilo y el diagrama esquemático del estilo de destino, y puede procesar rápidamente la imagen original en la imagen creativa del estilo de destino. Igual que la generación de imágenes similares, el tamaño de la imagen original y la imagen de estilo no deben exceder los 10M, y el formato es el mismo.

Primero elegimos una imagen original realista y una imagen de estilo impresionista. Como resultado, las imágenes originales realistas han cambiado completamente su estilo y se han convertido en pinturas impresionistas.

A continuación, intente con una imagen original de dibujos animados en 3D y una imagen de estilo boceto. Se puede ver a partir de los resultados que el cambio entre los dos estilos es fácil.

Finalmente, elija una imagen original al estilo de la pintura china y una imagen al estilo de la acuarela. Los resultados generados son igualmente buenos.

Después de un poco de experiencia, ya sea un diagrama de Wensheng o un diagrama de Tusheng, Tongyi Wanxiang nos ha dado muchas sorpresas en términos de correlación semántica, integridad de imágenes y riqueza de detalles. Especialmente la función de migración de estilo, el cambio entre diferentes estilos es tan suave que las imágenes generadas casi no tienen la sensación de empalmarse y mancharse, como si pertenecieran al estilo de destino.

Como nuevo miembro de la familia de modelos a gran escala Tongyi de Alibaba Cloud, Ali dijo que las capacidades existentes de Tongyi Wanxiang son solo una pequeña prueba, y sus capacidades aún están evolucionando. En el futuro, las capacidades relevantes se abrirán gradualmente a los clientes de la industria.

Modelo Composer de desarrollo propio: 5 mil millones de parámetros, llegará a la cima

Anteriormente, los modelos grandes de muchas empresas configuraban personas "multimodales", con capacidades de dibujo de IA. En cambio, ¿cuánto contenido técnico tiene el significado universal de Ali? Parece que no es una simple imitación, sino que tiene su propia habilidad única.

Se entiende que Tongyi Wanxiang se basa en Composer, un modelo generativo combinado desarrollado por Ali, que tiene 5 mil millones de parámetros y está entrenado en miles de millones de pares de texto e imágenes. En el momento en que la industria está considerando cómo mejorar la capacidad de control de los modelos de pintura de IA, Composer ha aportado sus ideas innovadoras.

A través de un marco de "generación combinada" basado en un modelo de difusión, Composer puede desensamblar y combinar elementos de diseño de imágenes como combinación de colores, diseño y estilo, logrando un efecto de generación de imágenes altamente controlable y extremadamente libre.

El resultado, como usted y yo podemos ver, es que solo un modelo puede admitir tareas de generación de imágenes de varias clases. Zhou Jingren, director de tecnología de Alibaba Cloud, participó en la investigación de Composer, y los resultados relevantes se incluyeron en ICML 2023, la principal conferencia internacional de IA.

* Dirección en papel:

Dirección GitHub:

El llamado desmontaje-combinación, primero descompone la imagen en diferentes elementos de diseño, como combinación de colores, bocetos, diseño, estilo, semántica, materiales, etc. Estos elementos de diseño luego se recombinan en nuevas imágenes utilizando modelos de IA. Aquí, el proceso de desmontaje y montaje permite la libre modificación y edición de los elementos utilizados, por lo que la controlabilidad se mejora considerablemente.

*Teardown - Proceso combinado de generación de imágenes. *

No solo eso, Composer también puede lograr un espacio creativo más amplio al "exprimir" el potencial de la combinación de desmontaje. Suponiendo que hay 100 imágenes, cada una de las cuales se divide en 8 elementos, hay 100 elevado a la octava potencia de las combinaciones de todos los elementos. Este aumento exponencial en los números se conoce como fenómeno de explosión combinatoria y, sin duda, crea un enorme espacio de generación para los modelos de IA. Al mismo tiempo, los diseñadores humanos también tienen gran libertad y capacidades de personalización al generar imágenes personalizadas.

* Proceso de recombinación de imágenes. *

Se basa en el marco Composer que Tongyi Wanxiang nos permite experimentar las dos funciones de generación de gráficos de similitud y transferencia de estilo. Mientras se usa el modelo de comprensión de imágenes para desarmar la imagen en diferentes elementos, mientras se usa el modelo de difusión para recombinar estos elementos en una nueva imagen, el enfoque de dos vertientes, la generación de imágenes es una cuestión de rutina.

Entre ellos, para la generación de imágenes similares, manteniendo el contenido semántico de la imagen sin cambios, solo cambiando los detalles locales en la imagen se pueden generar imágenes similares. En el proceso, se puede mantener mejor la consistencia del cuerpo principal de la imagen original y también se puede mejorar la diversidad y calidad de la imagen generada.

Para la transferencia de estilo, por un lado, se conservan la forma y la estructura básicas de la imagen original y, por otro lado, el estilo, el color, los trazos de pincel y otra información personalizada de la imagen de estilo de destino se transfieren para finalmente realizar el estilo. transferir.

Uso del modelo grande como núcleo para crear una base unificada para la IA generativa

Parece que el efecto inesperado de Tongyi Wanxiang proviene de la propia tecnología central de Ali.

De hecho, en China, Ali es una de las grandes empresas que comenzó a explorar la IA generativa antes y comenzó la investigación y el desarrollo de tecnología de modelos a gran escala en 2018. En 2019, el gran modelo de formación de idiomas StructBERT propuesto por Dharma Institute superó la investigación de Google, Microsoft y Facebook, y alcanzó la cima de la lista de referencia autorizada de PNL GLUE en ese momento.

En 2021, Ali lanzará el primer modelo M6 multimodal a gran escala con decenas de miles de millones de parámetros en China y el modelo de idioma a gran escala PLUG llamado "versión china GPT-3". Entre ellos, después de múltiples iteraciones, M6 ha alcanzado una escala de parámetros de diez billones de niveles, y M6 se combina con las necesidades comerciales de Alipay y Taobao.

En el WAIC del año pasado, Ali lanzó la serie de modelos a gran escala Tongyi, que construyó un "modelo básico" para la industria por primera vez, logrando una representación modal unificada, representación de tareas y estructura de modelo. Además, los modelos principales relevantes son de código abierto para desarrolladores de todo el mundo.

Con respecto a la implementación de la IA generativa, nos hemos enfrentado a varios desafíos: alto costo de la potencia informática, proceso de construcción complejo y versatilidad limitada. Tongyi creó la primera base unificada de IA de la industria y construyó un sistema de inteligencia artificial jerárquico con modelos grandes y pequeños coordinados. Su objetivo es enfrentar el desafío y permitir que la IA pase de la percepción a la cognición.

Se puede decir que Ali ha realizado algunas contribuciones de vanguardia y líderes al desarrollo de modelos chinos a gran escala en términos de modelos supergrandes, lenguaje y capacidades multimodales, capacitación con bajas emisiones de carbono, servicios de plataforma y aplicaciones de aterrizaje. .

Antes de Tongyi Wanxiang, Ali lanzó sucesivamente "Tongyi Thousand Questions" para procesamiento de lenguaje natural y "Tongyi Listening", que se especializa en productividad de audio y video. Hasta ahora, se han abierto las tres direcciones principales de la IA. Ante la enorme demanda potencial de modelos grandes e IA generativa, Alibaba Cloud tiene ventajas únicas.

Además de la acumulación de tecnología de modelos a gran escala, las capacidades sólidas de infraestructura en la nube son cruciales. En términos de poder de cómputo, Alibaba Cloud es el proveedor de servicios de cómputo en la nube número uno en Asia y el tercero en el mundo, y su modelo grande tiene un sólido soporte de sistema de poder de cómputo. Por ejemplo, Alibaba Cloud tiene la mayor reserva de poder de cómputo inteligente en China, y el clúster de cómputo inteligente de Alibaba Cloud puede admitir una escala de GPU máxima de 100,000 tarjetas.

Además, Ali propuso por primera vez el concepto de "Modelo como servicio" en China y tomó la iniciativa en la creación de la mayor comunidad de servicio modelo de IA en China, "Creación mágica", insistiendo en el código abierto y la apertura, y promoviendo la inclusión de la IA. En el foro temático de "MaaS: un nuevo paradigma para el desarrollo de IA centrado en modelos" de Alibaba Cloud, Zhou Jingren compartió su visión de MaaS y cómo potenciar aún más los productos y los socios.

*Jingren Zhou, CTO de Alibaba Cloud. *

En la competencia de AI 2.0, la competencia ha entrado en una nueva etapa.Después de la competencia de 100 modelos, inevitablemente habrá grandes olas y Alibaba Cloud está lista.

Ver originales

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 me gusta

Recompensa
1
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
GT 2025 Q2 Burn Completed
7k Popularidad
Michael Saylor Hints at Buying BTC
7k Popularidad
BTC
30453k Popularidad
4contentstar
10720k Popularidad
5NADA
11186k Popularidad
6BOME
11565k Popularidad
7BTC
30453k Popularidad
8SMILE
9062k Popularidad
9比特币
13438k Popularidad

Anclado