O desenho AI de Ali foi testado internamente, o que chocou algumas grandes fábricas

2023-07-09 01:51:30

Autor: Du Wei, Zenan

**Para perguntar na WAIC World Artificial Intelligence Conference deste ano, quem é o protagonista? O megamodelo AI merece. **

A conferência durou três dias, e várias empresas e instituições revelaram sucessivamente mais de 30 grandes modelos.

Os modelos de linguagem são indispensáveis nesta festa de grandes modelos.Claro, também existem modelos de pintura em grande escala que muitas vezes causam choque visual nas pessoas. Não, no campo do desenho AI, outro jogador nacional entrou em campo.

Três meses após o lançamento do modelo de linguagem grande Tongyi Qianwen, o modelo grande de criação de pintura AI de Ali também veio, e é baseado no modelo generativo combinado autodesenvolvido Composer.

Na conferência WAIC em 7 de julho, a família de modelos em grande escala Alibaba Cloud Tongyi revelou seu mais recente membro "Tongyi Wanxiang".

WAIC *No fórum temático de "MaaS: um novo paradigma para desenvolvimento de IA centrado em modelo" do Alibaba Cloud, Tongyi Wanxiang apareceu. *

Seu efeito de imagem de geração de texto é assim, e a velocidade de geração é muito rápida.

Tongyi Wanxiang também pode gerar uma nova imagem de outro estilo especificado para uma imagem original.

Há também um jogo de nidificação de bonecas, que gera algumas imagens semelhantes para uma imagem original.

Ali disse que Tongyi Wanxiang tem a capacidade de gerar gráficos e gráficos, o que pode ajudar os humanos na criação de imagens e reduzir bastante o limite para o design de imagens. No futuro, também pode ser aplicado a cenários de aplicação como design de arte, jogos e criação cultural.

Atualmente, o modelo abriu testes de convite direcional.

Antes que o ChatGPT se tornasse popular, o tópico mais popular no campo da IA era o desenho da IA. O modelo de difusão levou a IA generativa um grande passo à frente.Por um tempo, houve um grande número de modelos de IA que inserem texto e geram imagens de vários estilos. Posteriormente, surgiram mais maneiras de gerar imagens a partir de imagens e converter imagens em estilos específicos, o que deixou as pessoas deslumbradas e maravilhadas com a magia da IA generativa.

No grande palco do WAIC, Ali lançou este artefato de IA que pode gerar gráficos e gráficos. Pode-se ver que ele é muito confiante em seu efeito de geração.

Depois de obter a qualificação de experiência, é claro que o coração da máquina deve experimentá-la primeiro.

Medição real de Tongyi Wanxiang: jogabilidade diversificada, um tiro é uma obra-prima

Este novo modelo da família Tongyi trouxe mudanças no campo do desenho de IA? Falamos com resultados.

Atualmente, Tongyi Wanxiang lançou as três funções de geração de imagem de texto, geração de imagem semelhante e transferência de estilo de imagem.

Vamos começar com a geração padrão de texto para imagem. Em Wenshengtu, você pode escolher entre vários estilos, como aquarela, pintura a óleo, pintura chinesa, ilustração plana, bidimensional, esboço, desenho animado 3D, etc. Depois de inserir uma descrição de texto e selecionar um estilo, o AI pode gerar automaticamente uma imagem criativa. Ao mesmo tempo, para facilitar o uso, a proporção da imagem de saída tem três opções: 1:1, 16:9 e 9:16.

Vamos começar com algo menos complicado. Escolhemos um conjunto de palavras de "Tianjingsha · Autumn Thoughts" de Ma Zhiyuan, um dos quatro mestres de Yuanqu, para descrever "pequenas pontes, água corrente e casas" e escolhemos "pintura chinesa". para o estilo.

Como resultado, Tongyi Wanxiang nos mostrou completamente pinturas cheias de charme antigo, ricas em detalhes, e acrescentou alguns elementos que não estavam na descrição, como montanhas distantes e patos nadando na água.

Podemos também mudar dois estilos novamente, desta vez escolhendo "esboço" e "pintura a óleo". Tongyi Wanxiang pode alternar livremente em vários estilos, e os esboços e pinturas a óleo gerados são igualmente incríveis. Não é exagero dizer que essas imagens são de um nível que pode ser usado diretamente.

Deixe outro conjunto de texto descrever "um gato em um traje espacial, espaço, viagem, céu estrelado", desta vez escolha "bidimensional" e "desenho em 3D" para o estilo. O efeito é claro à primeira vista, especialmente o grupo de estilo de desenho animado 3D, os gatos são tão fofos.

Acima: 2D; Inferior: desenho animado 3D

Aqui, de repente, quero comparar Tongyi Wanxiang com a famosa Stable Diffusion. A mesma descrição de texto é traduzida para o inglês "gato em um traje espacial, espaço, viagem, céu estrelado" e, em seguida, "estilo de caixa 3D" é adicionado, a imagem gerada é a seguinte.

Inesperadamente, Tongyi Wanxiang venceu esta onda. Os gatos gerados por Stable Diffusion eram muito abstratos ou muito realistas e não mostravam um estilo de desenho animado 3D.

Como uma simples descrição de texto não é difícil para Tongyi Wanxiang, vamos torná-la difícil.

Desta vez, há uma seção mais longa de "uma japonesa de cabelos castanhos lisos, pele clara, usando vestido, renda e laço, carregando uma bolsinha, sorrindo", e o estilo é "bidimensional". Gostaria de perguntar aos amigos que gostam da segunda dimensão, essas imagens geradas combinam com as garotas japonesas em sua mente?

Outro conjunto de descrições em um estilo mágico é "surrealismo, textura excepcional, resolução 4k, cyberpunk, navio de guerra, majestoso, fumaça, gigantes de metal, armas a laser, processador de octanas", e o estilo é "pintura a óleo". Olhando para as fotos abaixo, há uma sensação de tensão na batalha do Juízo Final.

Colocamos a mesma descrição novamente em difusão estável. Em termos de riqueza de detalhes, a difusão estável é melhor, mas seu estilo de imagem parece cinza e não dá às pessoas uma forte sensação de impacto de cor. E é um estilo mais realista, ligeiramente diferente do surrealismo.

Parece que pelo menos na pista de Wen Shengtu, Tongyi Wanxiang parece ser completamente compreendido. As pessoas não podem deixar de suspirar, a capacidade da IA generativa no campo do desenho vem evoluindo.

A seguir, falaremos sobre a função de geração de imagens de similaridade de Tongyi Wanxiang. Os usuários só precisam fornecer uma imagem de referência para obter pinturas de IA com conteúdo e estilo semelhantes. Deve-se observar aqui que o tamanho da imagem carregada deve ser inferior a 10M e o formato suporta JPG, JPEG, PNG, BMP etc.

Vamos primeiro colocar um pedaço de Musk, um visitante frequente do mundo do desenho de IA, para ver como é o "Fenke" de Musk aos olhos de Tongyi Wanxiang. Comparada com o corpo real de Musk, a imagem gerada é mais antiga, mas o sorriso é igualmente alegre.

Outra imagem de paisagem, o efeito gerado é muito bom. O riacho borbulha e a água também está pontilhada de mais folhas caídas, o que não é inferior à imagem original.

Na experiência, o coração da máquina também descobriu que as imagens geradas pelo significado geral do texto Wanxiang podem gerar diretamente imagens semelhantes. Aqui, selecionamos um dos "gatos em trajes espaciais" do estilo de desenho animado 3D acima como a imagem original. Assim que os resultados saem, os gatos gerados são mais fofos e os elementos de fundo são mais abundantes.

Finalmente veja a função de migração de estilo. Você só precisa carregar a imagem original que deseja alterar o estilo e o diagrama esquemático do estilo de destino e pode processar rapidamente a imagem original na imagem criativa do estilo de destino. Igual à geração de imagem semelhante, o tamanho da imagem original e a imagem de estilo não devem exceder 10M e o formato é o mesmo.

Primeiro escolhemos uma imagem original realista e uma imagem de estilo impressionista. Como resultado, as pinturas originais realistas mudaram completamente de estilo e se tornaram pinturas impressionistas.

Em seguida, tente uma imagem original de desenho animado 3D e uma imagem de estilo de esboço. Pode-se observar pelos resultados que a alternância entre os dois estilos é fácil.

Por fim, escolha uma imagem original no estilo da pintura chinesa e uma imagem no estilo da aquarela. Os resultados gerados são igualmente bons.

Depois de alguma experiência, seja um diagrama Wensheng ou um diagrama Tusheng, Tongyi Wanxiang nos deu muitas surpresas em termos de correlação semântica, integridade de imagem e riqueza de detalhes. Especialmente a função de migração de estilo, a alternância entre estilos diferentes é tão suave que as imagens geradas quase não apresentam emendas e manchas, como se pertencessem ao estilo de destino.

Como um novo membro da família de modelos de grande escala Tongyi da Alibaba Cloud, Ali disse que as capacidades existentes de Tongyi Wanxiang são apenas um pequeno teste, e suas capacidades ainda estão evoluindo. No futuro, os recursos relevantes serão gradualmente abertos aos clientes do setor.

Modelo Composer autodesenvolvido: 5 bilhões de parâmetros, chegará ao topo

Anteriormente, os grandes modelos de muitas empresas estavam configurando pessoas "multimodais", com recursos de desenho de IA. Em contraste, quanto conteúdo técnico tem o significado universal de Ali? Parece que não é uma simples imitação, mas tem uma habilidade única.

Entende-se que Tongyi Wanxiang é baseado no Composer, um modelo generativo combinado desenvolvido pela própria Ali, que possui 5 bilhões de parâmetros e é treinado em bilhões de pares de texto e imagem. No momento em que a indústria está considerando como melhorar a capacidade de controle dos modelos de pintura de IA, o Composer deu suas ideias inovadoras.

Por meio de uma estrutura de "geração combinada" baseada em um modelo de difusão, o Composer pode desmontar e combinar elementos de design de imagem, como correspondência de cores, layout e estilo, obtendo um efeito de geração de imagem altamente controlável e extremamente livre.

O resultado, como você e eu podemos ver, é que apenas um modelo pode suportar tarefas de geração de imagem multiclasse. Zhou Jingren, diretor de tecnologia da Alibaba Cloud, participou da pesquisa do Composer e os resultados relevantes foram incluídos na ICML 2023, a principal conferência internacional de IA.

* Endereço do papel:

Endereço do GitHub:

A chamada combinação de desmontagem primeiro decompõe a imagem em diferentes elementos de design, como correspondência de cores, esboços, layout, estilo, semântica, materiais, etc. Esses elementos de design são recombinados em novas imagens usando modelos de IA. Aqui, o processo de desmontagem e montagem permite a livre modificação e edição dos elementos utilizados, de modo que a controlabilidade é bastante aprimorada.

*Teardown - Processo combinado de geração de imagens. *

Além disso, o Composer também pode alcançar um espaço criativo mais amplo "espremendo" o potencial de combinação de desmontagem. Supondo que existam 100 imagens, cada uma dividida em 8 elementos, existem 100 à 8ª potência de combinações de todos os elementos. Esse aumento exponencial nos números é conhecido como fenômeno da explosão combinatória e, sem dúvida, cria um enorme espaço de geração para modelos de IA. Ao mesmo tempo, os designers humanos também recebem grande liberdade e recursos de personalização ao gerar imagens personalizadas.

* Processo de recombinação de imagens. *

É com base na estrutura do Composer que Tongyi Wanxiang nos permite experimentar as duas funções de geração de gráfico de similaridade e transferência de estilo. Ao usar o modelo de compreensão da imagem para desmontar a imagem em diferentes elementos, ao usar o modelo de difusão para recombinar esses elementos em uma nova imagem, a abordagem em duas frentes, a geração da imagem é natural.

Dentre eles, para a geração de imagens semelhantes, mantendo o conteúdo semântico da imagem inalterado, apenas alterando os detalhes locais na imagem é possível gerar imagens semelhantes. No processo, a consistência do corpo principal da imagem original pode ser melhor mantida, e a diversidade e a qualidade da imagem gerada também podem ser melhoradas.

Para a transferência de estilo, por um lado, a forma básica e a estrutura da imagem original são mantidas e, por outro lado, o estilo, a cor, as pinceladas e outras informações personalizadas da imagem de estilo de destino são transferidas para finalmente concretizar o estilo transferir.

Usando o modelo grande como núcleo para criar uma base unificada para IA generativa

Parece que o efeito inesperado de Tongyi Wanxiang vem da própria tecnologia central de Ali.

De fato, na China, a Ali é uma das grandes empresas que começou a explorar a IA generativa anteriormente e iniciou a pesquisa e o desenvolvimento da tecnologia de modelos em larga escala em 2018. Em 2019, o grande modelo de treinamento de idiomas StructBERT proposto pelo Dharma Institute superou a pesquisa do Google, Microsoft e Facebook e alcançou o topo da lista de referência de autoridade em PNL GLUE na época.

Em 2021, Ali lançará o primeiro modelo multimodal em grande escala M6 com dezenas de bilhões de parâmetros na China e o modelo de linguagem em grande escala PLUG chamado "versão chinesa GPT-3". Entre eles, após várias iterações, o M6 alcançou uma escala de parâmetro de dez trilhões de níveis, e o M6 é combinado com as necessidades de negócios da Alipay e Taobao.

No WAIC do ano passado, Ali lançou a série de modelos em grande escala Tongyi, que construiu um "modelo básico" para a indústria pela primeira vez, alcançando uma representação modal unificada, representação de tarefa e estrutura de modelo. Além disso, os principais modelos relevantes são de código aberto para desenvolvedores em todo o mundo.

Em relação à implementação da IA generativa, temos enfrentado vários desafios: alto custo de poder computacional, processo de construção complexo e versatilidade limitada. Tongyi criou a primeira base unificada de IA da indústria e construiu um sistema hierárquico de inteligência artificial com modelos grandes e pequenos coordenados. Seu objetivo é enfrentar o desafio e deixar a IA passar da percepção à cognição.

Pode-se dizer que Ali fez algumas contribuições de ponta e liderança para o desenvolvimento de modelos chineses de grande escala em termos de modelos supergrandes, recursos de linguagem e multimodais, treinamento de baixo carbono, serviços de plataforma e aplicativos de pouso. .

Antes de Tongyi Wanxiang, Ali lançou sucessivamente "Tongyi Thousand Questions" para processamento de linguagem natural e "Tongyi Listening", especializado em produtividade de áudio e vídeo. Até agora, as três direções principais da IA foram todas abertas. Diante da enorme demanda potencial por modelos grandes e IA generativa, o Alibaba Cloud tem vantagens únicas.

Além do acúmulo de tecnologia de modelo em grande escala, os fortes recursos de infraestrutura em nuvem são cruciais. Em termos de poder de computação, o Alibaba Cloud é o provedor de serviços de computação em nuvem número um na Ásia e o terceiro no mundo, e seu modelo grande possui um sólido suporte de sistema de poder de computação. Por exemplo, o Alibaba Cloud tem a maior reserva de poder de computação inteligente na China, e o cluster de computação inteligente do Alibaba Cloud pode suportar uma escala de GPU máxima de 100.000 cartões.

Além disso, Ali propôs pela primeira vez o conceito de "Modelo como serviço" na China e assumiu a liderança na construção da maior comunidade de serviço de modelo de IA na China, "Magic Build", insistindo em código aberto e abertura e promovendo a inclusão de IA. No fórum temático do Alibaba Cloud "MaaS: um novo paradigma para desenvolvimento de IA centrado em modelo", Zhou Jingren compartilhou sua visão para MaaS e como capacitar ainda mais produtos e parceiros.

*Jingren Zhou, CTO da Alibaba Cloud. *

Na competição de AI 2.0, a competição entrou em uma nova fase. Após a competição de 100 modelos, inevitavelmente haverá grandes ondas e o Alibaba Cloud está pronto.

Ver original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 gostos

Recompensa
1
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
GT 2025 Q2 Burn Completed
8k Popularidade
Michael Saylor Hints at Buying BTC
7k Popularidade
BTC
30453k Popularidade
4contentstar
10720k Popularidade
5NADA
11186k Popularidade
6BOME
11565k Popularidade
7BTC
30453k Popularidade
8SMILE
9062k Popularidade
9比特币
13439k Popularidade

Pino