2D para 3D novo avanço! Análise aprofundada da tecnologia AIGC, um artigo para entender a história e a situação atual da geração de dados 3D

2023-07-28 05:49:47

Autor: Chengxi Editor: Manman Zhou

Fonte: Silicon Rabbit Race See More

Nos últimos 18 meses, a geração de conteúdo de IA (AIGC) é, sem dúvida, o tópico mais quente e quente no círculo de capital de risco de tecnologia do Vale do Silício.

DALL-E (em janeiro de 2021)

No meio da jornada (em julho de 2022)

Difusão estável (em agosto de 2022)

Este tipo de ferramenta generativa 2D pode converter prompts de texto ( ) em imagens artísticas em apenas alguns segundos. Com a evolução e o avanço dessas ferramentas AIGC 2D, os fluxos de trabalho criativos de artistas, designers e estúdios de jogos estão sendo rapidamente revolucionados.

Onde está o próximo avanço do AIGC? Muitos investidores e veteranos da indústria deram previsões - geração de dados 3D.

Percebemos que o 3D AIGC está passando por uma fase em que o 2D AIGC foi desenvolvido. Neste artigo, discutiremos os novos avanços do AIGC no campo de dados 3D com mais profundidade e veremos como as ferramentas generativas de IA podem melhorar a eficiência e a inovação da geração de dados 3D.

01 Revisão do rápido desenvolvimento do AIGC 2D

O desenvolvimento do AIGC 2D pode ser resumido brevemente nos três estágios de desenvolvimento a seguir:

Fase 1: Edição Inteligente de Imagens

Já em 2014, com a introdução da rede de confrontação generativa (GAN, trabalho típico de acompanhamento StyleGAN) e do autoencoder variacional (VAE, trabalho típico de acompanhamento VQVAE, alignDRAW), os modelos de IA começaram a ser amplamente utilizados na geração inteligente de Imagens 2D e edição. Os primeiros modelos de IA foram usados principalmente para aprender algumas distribuições de imagem relativamente simples ou realizar alguma edição de imagem. As aplicações comuns incluem: geração de face, transferência de estilo de imagem, super-resolução de imagem, conclusão de imagem e edição de imagem controlável.

Mas as primeiras redes de geração/edição de imagens têm uma interação multimodal muito limitada com o texto. Além disso, as redes GAN são geralmente difíceis de treinar e frequentemente encontram problemas como colapso de modo e instabilidade. Os dados gerados geralmente são pobres em diversidade e a capacidade do modelo também determina o limite superior da escala de dados disponível; VAE geralmente encontra o a imagem gerada está embaçada e outros problemas.

A segunda etapa: o salto do modelo gráfico de Vincent

Com o avanço da tecnologia de geração de difusão (difusão), o surgimento e desenvolvimento de conjuntos de dados multimodais em larga escala (como o conjunto de dados LAION) e modelos de representação multimodal (como o modelo CLIP lançado pela OpenAI), o campo da geração de imagens 2D será em 2021. Um progresso significativo foi feito. O modelo de geração de imagem começou a interagir profundamente com o texto, e o modelo gráfico de Vincent em grande escala fez uma estreia incrível.

Quando a OpenAI lançar o DALL-E no início de 2021, a tecnologia AIGC realmente começará a mostrar grande potencial comercial. O DALL-E pode gerar imagens realistas e complexas a partir de dicas de texto arbitrárias com uma taxa de sucesso muito melhorada. Em um ano, um grande número de modelos de gráficos de Vincent se seguiram rapidamente, incluindo DALL-E 2 (atualizado em abril de 2022) e Imagen (lançado pelo Google em maio de 2022). Embora essas tecnologias ainda não fossem eficientes para ajudar os criadores de arte a produzir conteúdo que pudesse ser colocado diretamente em produção, elas atraíram a atenção do público e estimularam a criatividade e o potencial de produção de artistas, designers e estúdios de jogos.

Fase Três: De Incrível a Produtivo

Com a melhoria dos detalhes técnicos e a iteração da otimização de engenharia, o AIGC 2D se desenvolveu rapidamente. No segundo semestre de 2022, modelos como Midjourney e Stable Diffusion tornaram-se ferramentas AIGC populares. Impulsionado por seus conjuntos de dados de treinamento em grande escala, o desempenho das técnicas AIGC em aplicativos do mundo real beneficiou os primeiros usuários nas indústrias de mídia, publicidade e jogos. Além disso, o surgimento e o desenvolvimento de tecnologias de ajuste fino de modelos grandes (como ControlNet e LoRA) também permitem que as pessoas "personalizem" ajuste e expandam modelos grandes de IA de acordo com suas necessidades reais e uma pequena quantidade de dados de treinamento, de modo a adaptar-se melhor a diferentes aplicações específicas (como estilização bidimensional, geração de logotipo, geração de código QR, etc.).

A concepção e a prototipagem com ferramentas AIGC agora levam horas ou menos em muitos casos, em vez dos dias ou semanas que costumavam levar. Embora a maioria dos designers gráficos profissionais ainda modifique ou recrie esboços gerados por IA, é cada vez mais comum que blogs ou anúncios pessoais usem imagens geradas por IA diretamente.

Diferentes efeitos de alignDRAW, DALL-E 2 e texto Midjourney para conversão de imagem.

Além da conversão de texto para imagem, o 2D AIGC continua a ter desenvolvimentos mais recentes. Por exemplo, Midjourney e outras startups como Runway e Phenaki estão desenvolvendo recursos de conversão de texto em vídeo. Além disso, Zero-1-to-3 propôs um método para gerar imagens correspondentes de diferentes ângulos de visão a partir de uma única imagem 2D de um objeto.

Devido à crescente demanda por dados 3D nas indústrias de jogos e robótica, a pesquisa de ponta atual sobre AIGC está mudando gradualmente para a geração de dados 3D. Esperamos um padrão de desenvolvimento semelhante para AIGC 3D.

Momento "DALL-E" de 3D AIGC

Os recentes avanços tecnológicos no campo 3D nos dizem que o momento "DALL-E" do 3D AIGC está chegando!

Do DreamFields no final de 2021 ao DreamFusion e Magic3D no segundo semestre de 2022 e depois ao ProlificDreamer em maio deste ano, graças ao desenvolvimento de domínios multimodais e modelos de grafos de Vincent, muitos avanços foram feitos no modelo 3D acadêmico de Wensheng. Vários métodos são capazes de gerar modelos 3D de alta qualidade a partir do texto de entrada.

No entanto, a maioria dessas primeiras explorações precisa otimizar uma representação 3D desde o início ao gerar cada modelo 3D, de modo que as perspectivas 2D correspondentes à representação 3D atendam às expectativas da entrada e dos modelos anteriores. Como essas otimizações normalmente requerem dezenas de milhares de iterações, elas geralmente consomem muito tempo. Por exemplo, gerar um único modelo de malha 3D pode levar até 40 minutos no Magic3D e horas no ProlificDreamer. Além disso, um dos grandes desafios da geração 3D é que o modelo 3D deve ter a consistência da forma do objeto em diferentes ângulos. Os métodos AIGC 3D existentes frequentemente encontram o Problema de Janus, ou seja, os objetos 3D gerados por AI têm várias cabeças ou múltiplas faces.

Problema de Janus devido à falta de consistência de forma 3D no ProlificDreamer. À esquerda está uma visão frontal de um pássaro azul aparentemente normal. À direita está uma imagem confusa representando um pássaro com duas faces.

Mas, por outro lado, algumas equipes estão tentando romper o paradigma de geração baseado em otimização existente e gerar modelos 3D por meio de uma única rota técnica de previsão avançada, o que melhora muito a velocidade e a precisão da geração 3D. Esses métodos incluem Point-E e Shap-E (lançado pela OpenAI em 2022 e 2023, respectivamente) e One-2–3–45 (lançado pela UC San Diego em 2023). Digno de nota é o One-2–3–45, lançado no mês passado, capaz de gerar uma malha 3D consistente e de alta qualidade a partir de uma imagem 2D em apenas 45 segundos!

Uma análise comparativa de métodos de imagem única para malha 3D. Da esquerda para a direita, podemos observar que o tempo de processamento caiu drasticamente de mais de uma hora para menos de um minuto. O Point-E, Shap-E e One-2–3–45 são excelentes em velocidade e precisão.

Esses últimos avanços tecnológicos no campo do AIGC 3D não apenas melhoram muito a velocidade e a qualidade da geração, mas também tornam a entrada do usuário mais flexível. Os usuários podem inserir por meio de prompts de texto ou gerar o modelo 3D desejado por meio de uma única imagem 2D com mais informações. Isso expande muito as possibilidades do AIGC 3D em termos de aplicações comerciais.

IA revoluciona o processo de produção 3D

Primeiro, vamos entender o fluxo de trabalho pelo qual os designers 3D tradicionais precisam passar para criar modelos 3D:

Esboços de conceito: Os designers de arte conceitual fazem um brainstorming e idealizam os modelos necessários com base na entrada do cliente e nas referências visuais.
Prototipagem 3D: Os designers de modelo usam software profissional para criar a forma básica do modelo e iterar com base no feedback do cliente.
Refinamento do modelo: adicione detalhes, cores, texturas e propriedades de animação (como rigging, iluminação, etc.) ao modelo 3D bruto.
Finalização do modelo: Os designers usam software de edição de imagem para aprimorar a renderização final, ajustar cores, adicionar efeitos ou realizar a síntese de elementos.

Esse processo geralmente leva algumas semanas, possivelmente até mais se a animação estiver envolvida. No entanto, cada uma dessas etapas poderia ser acelerada com a ajuda da IA.

Um poderoso gerador de imagem multivisualização (por exemplo, Zero-1–to–3 baseado em difusão estável e meio-dia) facilita o brainstorming criativo e gera esboços de imagem multivisualização.
As tecnologias de texto para 3D ou imagem para 3D (por exemplo, One-2–3–45 ou Shap-E) podem gerar vários protótipos 3D em minutos, oferecendo aos designers uma ampla variedade de opções.
Usando a otimização do modelo 3D (por exemplo, Magic 3D ou ProlificDreamer), os protótipos selecionados podem ser refinados automaticamente em questão de horas.
Assim que o modelo refinado estiver pronto, o designer 3D pode projetar e concluir o modelo de alta fidelidade.

Uma comparação entre fluxos de trabalho de produção 3D tradicionais e orientados por IA

O 3D AIGC substituirá os humanos?

Nossa conclusão é que ainda não. As pessoas continuam a ser um elo indispensável na ligação 3D AIGC.

Embora a tecnologia de geração de modelos 3D mencionada acima possa ter muitas aplicações em robótica, direção autônoma e jogos 3D, o processo de produção atual ainda não consegue atender a uma ampla gama de aplicações.

Para este fim, Silicon Rabbit Jun entrevistou Professor Su Hao da Universidade da Califórnia, San Diego. Ele é um dos principais especialistas nas áreas de Aprendizagem Profunda 3D e IA Corporificada. Um dos autores do –3–45 modelo. O professor Su Hao acredita que o principal gargalo do atual modelo de geração 3D é a falta de um grande número de conjuntos de dados 3D de alta qualidade. Conjuntos de dados 3D comumente usados atualmente, como ShapeNet (cerca de 52K grades 3D) ou Objaverse (cerca de 800K modelos 3D) contêm modelos que precisam ser melhorados em termos de quantidade e qualidade de detalhes. Especialmente em comparação com grandes conjuntos de dados no domínio 2D (por exemplo, LAION-5B), seu volume de dados ainda está longe de ser suficiente para treinar grandes modelos 3D.

O professor Su Hao já estudou com o professor Leonidas Guibas, um pioneiro da computação geométrica e membro da Academia Americana de Ciências, e participou do projeto ImageNet liderado pelo professor Feifei Li como um dos primeiros colaboradores. Inspirado por eles, o professor Su Hao enfatizou o papel fundamental de extensos conjuntos de dados 3D no avanço da tecnologia e lançou as bases para o surgimento e a prosperidade do campo de aprendizado profundo em 3D.

Além disso, os modelos 3D são muito mais complexos do que as imagens 2D, por exemplo:

Estrutura da peça: jogos ou aplicativos de gêmeos digitais requerem partes estruturadas de objetos 3D (por exemplo, PartNet), em vez de uma única malha 3D;
Juntas e ligações: propriedades chave para interagir com objetos 3D;
Textura e material: como refletância, coeficiente de fricção de superfície, distribuição de densidade, módulo de Young e outras propriedades importantes que suportam a interação;
Operação e manipulação: permite que os designers interajam e manipulem modelos 3D de forma mais eficaz.

E os pontos acima são onde a experiência humana pode continuar a desempenhar um papel importante.

O professor Su Hao acredita que, no futuro, a geração de dados 3D orientada por IA deverá ter as seguintes características:

Apoiar a geração de modelos 3D que suportam aplicativos interativos. Essa interação inclui tanto a interação física entre objetos (como colisões) quanto a interação entre pessoas e objetos (métodos de interação física e não física), tornando os dados 3D no jogo , metaverse, simulação física e outros cenários podem ser amplamente utilizados;
Suporta geração de conteúdo 3D assistida por IA, tornando a modelagem mais eficiente;
Apoie o processo de criação de Human-in-the-loop e use o talento artístico humano para melhorar a qualidade dos dados gerados, melhorando assim ainda mais o desempenho da modelagem e formando um efeito de volante de dados de loop fechado.

Semelhante ao incrível desenvolvimento de tecnologias como DALL-E e ChatGPT nos últimos 18 meses, acreditamos firmemente que o que está prestes a acontecer no campo do AIGC 3D, sua inovação e aplicação provavelmente excederá nossas expectativas, o Silicon Rabbit continuar a aprofundar a exploração e produção.

Ver original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.