Grande debate sobre o café AIGC: como enfrentar o vento e as ondas no boom da IA

Fonte: Lei Feng Net

Autor: Dong Zibo Wang Yue

Título original: "AIGC: Under the upsurge, where is the frontier?丨GAIR 2023》

De desenhar imagens a escrever poemas, de copywriting a fazer tabelas, de PPT a escrever códigos, se alguém dissesse que a IA pode fazer todas essas tarefas há mais de dez meses, poucas pessoas acreditariam.

No entanto, a velocidade do desenvolvimento tecnológico é sempre explosiva. Antes do final de 2023, a onda de IA generativa varreu todo o círculo tecnológico, deixando as pessoas fascinadas e migrando para ela.

Na 7ª Conferência Global de Inteligência Artificial e Robótica GAIR, patrocinada conjuntamente pelo GAIR Research Institute, Leifeng.com, World Science and Technology Publishing House e Kotler Consulting Group, todos os grandes nomes do campo AIGC se reuniram no Orchard Hotel em Cingapura para apresentar O mundo compartilha seu conhecimento em primeira mão e mais recente sobre IA generativa.

Os palestrantes que participaram do GAIR AIGC e do subfórum de conteúdo generativo são:

Pan Xingang, Professor Assistente, Escola de Ciência e Engenharia da Computação, Universidade Tecnológica de Nanyang Congxing Cai, fundador da joinrealm.ai Fundador da comunidade Help&Grow em Singapura, Wang Tong CTO do Grupo Lizhi, Ding Ning Cientista Pesquisador Sênior, Nanyang Technological University; Fundador, Deepir Inc., Wu Pengcheng Diretor do Tencent Overseas Game Publishing Algorithm Center, Lang Jun

No atual caminho quente da IA, como manter a mente clara e refinar as inovações em tecnologia, produtos e modelos de negócios? Quais são os insights dos convidados da reunião, para que possam aproveitar o vento e as ondas no surgimento da IA generativa?

Nanyang Technological University Pan Xingang: Arraste e solte os pontos-chave do conteúdo visual, não usamos o modelo de difusão

Quando se trata de AIGC, na faixa atual, todos sempre pensarão em MidJourney, que é altamente cotado no exterior, e no suporte técnico por trás dele - o modelo de difusão.

No entanto, Pan Xingang, um professor assistente da Escola de Ciência da Computação e Engenharia da Universidade Tecnológica de Nanyang, que já estudou com o professor Tang Xiaoou em Hong Kong, abandonou decisivamente o modelo de difusão em sua última "edição de arrastar e soltar de pontos de conteúdo visual". É utilizada uma técnica mais "antiga" - rede de confrontação generativa (GAN).

Muitas pessoas veem a poderosa capacidade da IA de gerar imagens e pensam que a era do AIGC chegou; mas Pan Xingang descobriu que "gerar imagens" muitas vezes não é a última etapa do processo criativo do usuário.

Ajustes subseqüentes na imagem, especialmente os elementos da imagem gerados pela IA, muitas vezes são cheios de incertezas. Para atender às necessidades dos usuários, é necessário permitir que cada elemento da imagem seja ajustado pelo usuário no estágio posterior.

Por exemplo, a IA gerou um leão muito realista.Se os usuários quiserem virar a cabeça do leão, mover sua posição ou até mesmo mudar a expressão do leão, é difícil fazê-lo na forma de produto atual.

Essas operações parecem simples, mas tratam-se de um controle preciso das propriedades espaciais dos objetos e ainda enfrentam enormes desafios técnicos.

Antigamente, havia uma maneira de seguir a ideia do diagrama de Vincent, editar a imagem de acordo com a orientação do texto - por exemplo, "mover o nariz do leão para a direita em 30 pixels".

Mas também há problemas com esta solução:

Por um lado, o modelo de texto deve ter uma compreensão suficientemente forte dos atributos espaciais dos objetos para atender às diversas necessidades e métodos de edição dos usuários e tornar a interação mais intuitiva;

Por outro lado, para um modelo de linguagem, é difícil entender com precisão o comprimento e o tamanho de uma imagem, o que também traz muitos problemas para a edição de conteúdo visual.

No nível da interação, para os usuários, o mais intuitivo e fácil de usar é, sem dúvida, a interação de arrastar e soltar; enquanto no nível da implementação técnica, os usuários precisam apenas especificar um ponto de captura vermelho e um ponto de destino azul, e AI vai A parte semântica da imagem correspondente ao ponto vermelho é movida para a posição do ponto azul para obter o efeito de edição dos atributos espaciais da imagem.

No passado, algumas pessoas desenvolveram funções semelhantes, mas geralmente a imagem a ser editada precisa ser mesclada e há certas suposições sobre a altura do objeto - a imagem editada é apenas uma distorção 2D da imagem original, há não não pode gerar novos conteúdos.

Deve ser preciso e gerar conteúdo.Pan Xingang não usou o atual modelo de difusão mais quente ao fazer pesquisa técnica e julgamento, mas escolheu a tecnologia de rede de confrontação generativa. Em primeiro lugar, o espaço da imagem descrito pelo GAN é muito contínuo, muito mais contínuo que o modelo de difusão; em segundo lugar, o espaço latente do contato do GAN é muito adequado para edição de atributos.

Com o desenvolvimento da pesquisa da equipe de Pan Xingang, eles apoiaram a edição multiponto com base no original, que pode alterar a postura dos objetos na imagem, redesenhar a forma de um carro ou alterar a perspectiva de um carro , para que um gatinho abra um olho e feche outro olho, mude o penteado ou a expressão, a postura ou o comprimento da roupa do retrato, para que o usuário possa editar a imagem de forma mais conveniente e até concluir a geração de conteúdo de vídeo dessa maneira.

Atualmente, este trabalho tem código aberto no GitHub e obteve 32.000 estrelas.

No futuro, a combinação de GAN e modelo de difusão é a visão de Pan Xingang para o trabalho que está sendo feito - não apenas a capacidade de geração do modelo de difusão, mas também as vantagens do GAN na edição de imagens, e também pode ser possível aplicar esses recursos para vídeo e conteúdo 3D e 4D, o futuro AIGC será mais inteligente e fácil de usar.

joinrealm.ai Congxing Cai: Construa uma rede social baseada em AIGC

Congxing Cai do joinrealm.ai tem o sonho de ser uma rede social AIGC.

Entrou no Snapchat por volta de 2016 e foi responsável pelo desenvolvimento de produtos de vídeos curtos na empresa. Cai Congxing passou pelo período de desenvolvimento de ultra-alta velocidade da indústria de vídeos curtos. E depois que o TikTok se tornou um produto fenomenal no exterior sem nenhuma disputa, Cai Congxing teve outros pensamentos:

"Sentimos que na trilha do conteúdo produtivo de vídeo curto, todos já se moveram em uma determinada direção; e no futuro, no campo do vídeo generativo, a indústria definitivamente terá um novo avanço."

Então Congxing Cai e seus amigos fundaram o joinrealm.ai.

Cai Congxing acredita que o AIGC é um conceito particularmente amplo e abstrato, e a direção do joinrealm.ai está principalmente no meio termo entre "fornecer API diretamente" e "completar a inovação da interação humano-computador" - a exploração do modelo de negócios de criação de conteúdo.

"Por que o modo de criação de conteúdo é importante? Com base em nossa observação de vídeos curtos nos últimos dez anos, uma grande mudança se deve ao surgimento de câmeras inteligentes. A popularidade das câmeras inteligentes, em grande parte, não é Em vez de dar a todos um telefone móvel, deu ao mundo bilhões de infraestrutura móvel."

Da "palavra" à "história" é a chave central do empreendedorismo do joinrealm.ai - com a ajuda da IA, os usuários podem apresentar o conteúdo em suas mentes como imagens, como uma "câmera pensante".

Para conseguir esse efeito, Cai Congxing descobriu na exploração do joinrealm.ai que ainda existem muitos problemas a serem resolvidos:

Em primeiro lugar, ainda existem diferenças com a linguagem natural - em última análise, ainda é uma linguagem de programação difícil de entender intuitivamente pelo público. Os usuários ainda precisam passar por muitas etapas de "tentativa-falha-tentativa". para gerar o conteúdo que desejam;

Em segundo lugar, o modelo básico ainda não consegue atender totalmente às necessidades dos usuários de AIGC hoje, tomando como exemplo a difusão estável, a proporção de novos usuários que estão dispostos a compartilhar o conteúdo gerado é provavelmente inferior a 20% hoje;

A falta de conceitos que possam ser ajustados pelos usuários também é o primeiro grande problema enfrentado pelo AIGC atualmente. É difícil para os usuários controlar a geração de IA por meio de um conjunto de conceitos definidos e também é difícil controlar seus próprios "contar histórias";

Por fim, é o equilíbrio de eficiência entre resultados de geração de imagem e custo.Como gerar conteúdo de maior qualidade por uma faixa de preço mais baixa também é uma questão que não pode ser ignorada pelo AIGC no momento.

Para enfrentar esses desafios, Cai Congxing e sua equipe encontraram quase uma centena de criadores influentes de IA e descobriram que a maioria de seus métodos de produção são únicos e raramente iguais, e todos eles usam um grande número de ferramentas para depurar e ajustar continuamente.

No final, joinrealm.ai decidiu concluir a atualização em três pontos principais após pesquisa e julgamento:

A primeira é a cadeia de ferramentas, que melhora a experiência do usuário ao concluir a otimização da interface do usuário;

A segunda é permitir que o usuário construa seu próprio ajuste fino, por exemplo, usando a descrição "eu", o produto pode gerar a imagem que deseja com mais precisão com base na própria imagem do usuário.

A terceira é construir uma comunidade sozinho, para que os usuários possam obter mais ensinamentos e inspiração na comunidade.

Mesa Redonda: AIGC "Going Global"

Wang Tong, fundador da comunidade Help&Grow em Cingapura, atuou como moderador e discutiu com Cai Congxing, fundador da joinrealm.ai, Ding Ning, CTO do Lychee Group, Wu Pengcheng, cientista de pesquisa sênior da Nanyang Technological University e fundador da Deepir Inc. e Lang Jun, diretor do Tencent Overseas Game Publishing Algorithm Center O tópico atual do AIGC e conteúdo generativo.

É mais fácil para o modelo de comercialização da AIGC pousar no campo To B ou no campo To C? Os convidados imaginaram o futuro ponto de apoio com base em sua própria experiência.

Lang Jun acredita que To B não é fácil de fazer, porque uma solução precisa ser abstraída e refinada com base em vários casos reais diferentes. Em termos de To C, pode ajudar muitos jogadores a se integrarem rapidamente ao jogo ao operar o jogo. jogo. Ao trabalhar internamente no algoritmo, Lang Jun e a equipe também julgarão constantemente que tipo de modelo pode aprofundar melhor a cena do pouso do AIGC.

Wu Pengcheng disse que tanto To B quanto To C têm oportunidades, mas uma grande empresa deve ser To C. Ele combinou a Miaoya Camera, os óculos Apple VR, a transmissão digital humana ao vivo e outras empresas que fizeram conquistas no nível ToC este ano, enfatizando que o AIGC To C dará origem a muitos aplicativos interessantes.

Ding Ning acredita que a comercialização do AIGC ainda está em um estágio inicial. Embora existam algumas empresas que assumiram a liderança em conquistas, a maioria delas ainda está a caminho. Ele enfatizou especialmente que os empreendedores de tecnologia não devem apenas estar imersos no toque da tecnologia, mas também considerar mais as necessidades e pontos problemáticos dos usuários. Em relação à implementação de To B e To C, ele disse que To B tem um grande mercado e precisa de capacidades e recursos, enquanto To C tem grande concorrência e requer um senso de mercado aguçado e capacidade de operar a comunidade. Ambos são muito promissor no futuro. amplo.

Sobre a ida da AIGC para o exterior e a globalização, vários convidados compartilharam suas experiências.

Lang Jun observou que a equipe doméstica tem uma vantagem de talento muito densa, canais eficientes de compartilhamento de conhecimento e forte interesse na indústria da Internet.Na verdade, não há muitos recursos para essa alocação no exterior. Sublinhou que atualmente a AIGC não tem um modelo de negócio particularmente maduro, pelo que quem tiver mais capacidade de conjugar recursos terá mais probabilidades de “esgotar”.

Ding Ning acredita que, quando a AIGC vai para o exterior, deve primeiro sair e diminuir seu número. Não precisa necessariamente atingir um determinado nível de produto. Ele percebe que é difícil ter sucesso no mercado de uma só vez em dois a três anos. Ele acrescentou que é muito importante respeitar o mercado externo, pois existem grandes diferenças de cultura, idioma, leis e regulamentos, sendo necessário ter um entendimento claro do mercado local.

Wu Pengcheng acredita que há uma grande oportunidade para a AIGC ir para o exterior. Por um lado, a tecnologia chinesa pode ser usada no exterior; por outro lado, os países estrangeiros também têm necessidades locais. Os dois podem ser profundamente integrados, o que gerará enormes valor. Ao mesmo tempo, também é preciso considerar que ir para o mar é apenas o primeiro passo, e também é preciso pensar em como viajar melhor para o exterior.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)