Da síntese de vídeo à edição da trilha sonora, tudo é feito por IA: o trailer do primeiro filme de ficção científica de IA "Genesis" estreou de forma chocante

Fonte: Coração da Máquina See More

Autor: Du Wei, Zewen

Nos últimos dois dias, um trailer de filme de ficção científica "Trailer: Genesis" ("Genesis"), com menos de um minuto de duração, se tornou popular nas redes sociais.

Ir para assistir‌

É muito ficção científica? O que há de mais "sci-fi" é que desde a síntese de imagem e vídeo, da música à edição, tudo é feito por IA.

O produtor Nicolas Neubert lista as ferramentas de IA correspondentes, onde Midjourney processa imagens, Runway processa vídeos, Pixabay processa música e CapCut edita vídeos.

Midjourney é um artefato de desenho de IA familiar e foi atualizado para a versão 5.2. O Runway é uma ferramenta de produção de vídeo baseada em IA e o Gen-2 está atualmente disponível para avaliação gratuita. A ferramenta de edição CapCut é gratuita para todos, mas você também pode optar por editar no Adobe Premier ou no Final Cut Pro.

Twitter @iamneubert

Entende-se que Neubert gastou 7 horas, Midjourney gerou 316 prompts, ampliou 128 imagens, Runway gerou 310 vídeos e um vídeo com texto.Um total de 44 vídeos foram usados no trailer.

Hoje, Neubert até escreveu um longo artigo, detalhando o processo de produção de "Genesis", incluindo o processo específico e como usar as ferramentas de IA acima. Vamos dar uma olhada neles um por um.

Sobre a ideia do filme, ele disse que a ideia de seu tema distópico veio de vários filmes que tinha assistido, e escreveu uma história baseada neles.

O primeiro passo na produção oficial é construir o mundo e a história.

Para o enredo Genesis do trailer, Neubert queria aumentar a tensão passo a passo. Assim, são definidas as 3 fases seguintes:

  1. Definindo a cena
  2. Apresentando Ameaças
  3. Clímax no CTA

Especificamente, Neubert trabalhou no primeiro rascunho da cópia do trailer, que incluía “Compartilhe tudo, viva as consequências e chame a humanidade para a ação”.

Tendo assim definido o tom geral, ele passou a gerar cenas em torno desses temas. Neubert percorreu toneladas de clipes humanos e de ficção científica sobre temas de ambientes, tecnologia militar e combate, e extraiu uma história de todos eles.

Também para adicionar um pouco de profundidade, ele adicionou fotos de três crianças com amuletos brilhantes, insinuando uma história mais profunda.

O segundo passo é gerar imagens consecutivas em Midjourney.

Preste atenção especial à dica () aqui. Neubert refinou as dicas de estabilização que obteve em postagens anteriores para criar um modelo para que pudesse reutilizá-lo em todas as cenas do trailer. O modelo é o seguinte:

___________, Star Wars, estilizado como cenas de multidão detalhadas, naturalismo terroso, azul-petróleo e amarelo, frostpunk, cenas de interior, cinestill 50d—ar 21 :9—estilo original

Para cada cena, ele preenchia os espaços em branco com a cena desejada, certificando-se de que os outros tokens mantivessem a continuidade máxima de tema, cor e iluminação.

Além disso, o uso do recurso de mudanças fortes (Strong iations) facilita a criação de cenas diferentes, mantendo a paleta de cores anterior. Uma cena de uma guerreira pode ser transformada em uma cena de uma cidadã normal, um hacker cibernético ou uma luta sem gerar novos prompts.

O terceiro passo é gerar a imagem animada no Runway.

Neubert achou esta etapa a mais fácil. No setup, ele sempre tenta ativar o modo Upscaled. No entanto, esse modo geralmente apresenta problemas com rostos; portanto, para fotos de retrato, ele geralmente usa a qualidade padrão.

Vale a pena notar que, em vez de usar uma combinação de prompts de texto e prompts de imagem, ele arrastou e soltou uma imagem e a regenerou até obter o resultado com o qual estava satisfeito.

A última etapa é a pós-edição no CapCut.

Enquanto Midjourney e Runway geram saída, Neubert começa colocando cenas-chave que ele sabe que terão um grande papel. No que diz respeito ao trailer, ele acha que as cenas externas serão a abertura.

Então comece a planejar o texto. É possível que não haja clipes na linha do tempo quando o texto é posicionado de acordo com a música. Em menos de uma hora, ele compilou o conteúdo de acordo com a linha do tempo e fixou o local. Isso é ótimo para gerar imagens onde você precisa de um ponto fixo extra para contabilizar quais cenas ainda estão faltando.

As etapas específicas tornam-se muito simples, gerar clipes → puxá-los para o CapCut → colocá-los na linha do tempo e, lentamente, juntar a história. Ele também combinou 2 ou 3 pacotes de edição para torná-los mais parecidos com grandes sets de filmagem.

A única habilidade necessária para usar o CapCut é sincronizar o tempo dos clipes. Quando "BWAAA" aparece na música, ele está sempre tentando conectar a ação dentro do clipe ou alinhar os clipes que seguem. Isso faz com que toda a sequência pareça mais envolvente.

Além disso, Neubert considerou como incorporar muito movimento ao clipe. Aqui ele usa dois truques para adicionar movimento.

Primeiro truque: Runway pega uma imagem e calcula quais partes devem ser animadas com base no modelo. Ele fez engenharia reversa dessa ideia, tentando produzir imagens em Midjourney que sugerissem movimento. Isso significa que o desfoque de movimento pode ser adicionado à filmagem ou imagens estáticas de cabeças em movimento ou pessoas podem ser capturadas.

Segunda dica: Ao analisar o vídeo Runway, você descobrirá que no clipe de 4 segundos, a cena geralmente muda bastante. Então, na cena do trailer, ele só usou o corte completo de 4 segundos duas vezes. Todos os outros clipes têm 0,5 a 2 segundos de duração e aceleram os clipes em um fator de 1,5 a 3. A razão para isso é que, como espectador, você vê apenas um clipe curto e, portanto, percebe mais movimento na cena, essencialmente avançando rapidamente nessa parte.

Depois de algumas operações, o que finalmente apresentamos a todos é o chocante trailer de "Gênesis" no início. O trailer também recebeu ótimas críticas, com alguns dizendo que foi o melhor vídeo de geração de passarela que viram até agora.

De fato, depois que o Runway Gen-2 foi disponibilizado para teste gratuito, muitos internautas abriram suas mentes e o combinaram com o Midjourney para criar ousadamente.

Midjourney+Runway: uma combinação mágica de ferramentas de criação de IA

Aqui estão alguns outros casos de uso de geração para compartilhar com você.

A compreensão de Runway dos detalhes dos movimentos do personagem também é relativamente precisa. No vídeo do internauta Shencheng, pode-se ver que os detalhes dos olhos dos personagens tornam o vídeo dinâmico mais vívido, e também pode-se dizer que adiciona um pouco de "habilidades de atuação".

fonte:

Depois que a imagem se move, os movimentos do homem e do cavalo na noite são muito naturais, e há mais espaço para a imaginação dos personagens e até mesmo para as ações subsequentes.

fonte:

A combinação de Midjourney e Runway parece invencível e pode retratar um bom senso de história nas principais ações dos personagens.

Twitter: @ai_insight1

Existem também algumas variações mais ricas e criativas na geração de resultados.

Twitter @kkuldar

Twitter: @Akashi30eth

Alguns internautas também usam uma série de ferramentas de IA para gerar videoclipes, mas os resultados parecem insatisfatórios.

O usuário do Twitter @nickfloats usa ChatGPT para escrever scripts, Midjourney para gerar imagens, Runway para gerar vídeos, Triniti para gerar música, Eleven Labs AI para dublar e os clipes são simplesmente costurados sem outros ajustes.

Roteiro escrito por ChatGPT

Os internautas gravaram todo o processo de sua própria produção e queriam ver quanto tempo levaria para usar a IA para fazer comerciais curtos.

Este internauta comentou sobre os resultados deste curta-metragem como "O anúncio é péssimo". Nesse anúncio, os movimentos dos personagens são rígidos, a relação lógica da imagem não é forte e é difícil destacar o tema a ser expresso como um todo. A cooperação da IA parece não ter surpresas, mas sim mais "sustos".

Comparado com "Genesis", este curta-metragem comercial tem metade do tempo, mas leva muito pouco tempo. Uma das maiores diferenças está nos detalhes do envolvimento humano. Faltam temas cuidadosamente considerados, ajustes coerentes e atenção aos detalhes.

Se apenas a IA puder participar, ou apenas produzir trabalhos baseados na geração de IA, obviamente não é possível produzir resultados de alta qualidade. É sua aplicação e ajuste por humanos que parecem revelar o verdadeiro valor dessas ferramentas.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)