Da síntese de vídeo à edição da trilha sonora, tudo é feito por IA: o trailer do primeiro filme de ficção científica de IA "Genesis" estreou de forma chocante
Nos últimos dois dias, um trailer de filme de ficção científica "Trailer: Genesis" ("Genesis"), com menos de um minuto de duração, se tornou popular nas redes sociais.
Ir para assistir
É muito ficção científica? O que há de mais "sci-fi" é que desde a síntese de imagem e vídeo, da música à edição, tudo é feito por IA.
O produtor Nicolas Neubert lista as ferramentas de IA correspondentes, onde Midjourney processa imagens, Runway processa vídeos, Pixabay processa música e CapCut edita vídeos.
Midjourney é um artefato de desenho de IA familiar e foi atualizado para a versão 5.2. O Runway é uma ferramenta de produção de vídeo baseada em IA e o Gen-2 está atualmente disponível para avaliação gratuita. A ferramenta de edição CapCut é gratuita para todos, mas você também pode optar por editar no Adobe Premier ou no Final Cut Pro.
Twitter @iamneubert
Entende-se que Neubert gastou 7 horas, Midjourney gerou 316 prompts, ampliou 128 imagens, Runway gerou 310 vídeos e um vídeo com texto.Um total de 44 vídeos foram usados no trailer.
Hoje, Neubert até escreveu um longo artigo, detalhando o processo de produção de "Genesis", incluindo o processo específico e como usar as ferramentas de IA acima. Vamos dar uma olhada neles um por um.
Sobre a ideia do filme, ele disse que a ideia de seu tema distópico veio de vários filmes que tinha assistido, e escreveu uma história baseada neles.
O primeiro passo na produção oficial é construir o mundo e a história.
Para o enredo Genesis do trailer, Neubert queria aumentar a tensão passo a passo. Assim, são definidas as 3 fases seguintes:
Definindo a cena
Apresentando Ameaças
Clímax no CTA
Especificamente, Neubert trabalhou no primeiro rascunho da cópia do trailer, que incluía “Compartilhe tudo, viva as consequências e chame a humanidade para a ação”.
Tendo assim definido o tom geral, ele passou a gerar cenas em torno desses temas. Neubert percorreu toneladas de clipes humanos e de ficção científica sobre temas de ambientes, tecnologia militar e combate, e extraiu uma história de todos eles.
Também para adicionar um pouco de profundidade, ele adicionou fotos de três crianças com amuletos brilhantes, insinuando uma história mais profunda.
O segundo passo é gerar imagens consecutivas em Midjourney.
Preste atenção especial à dica () aqui. Neubert refinou as dicas de estabilização que obteve em postagens anteriores para criar um modelo para que pudesse reutilizá-lo em todas as cenas do trailer. O modelo é o seguinte:
___________, Star Wars, estilizado como cenas de multidão detalhadas, naturalismo terroso, azul-petróleo e amarelo, frostpunk, cenas de interior, cinestill 50d—ar 21 :9—estilo original
Para cada cena, ele preenchia os espaços em branco com a cena desejada, certificando-se de que os outros tokens mantivessem a continuidade máxima de tema, cor e iluminação.
Além disso, o uso do recurso de mudanças fortes (Strong iations) facilita a criação de cenas diferentes, mantendo a paleta de cores anterior. Uma cena de uma guerreira pode ser transformada em uma cena de uma cidadã normal, um hacker cibernético ou uma luta sem gerar novos prompts.
O terceiro passo é gerar a imagem animada no Runway.
Neubert achou esta etapa a mais fácil. No setup, ele sempre tenta ativar o modo Upscaled. No entanto, esse modo geralmente apresenta problemas com rostos; portanto, para fotos de retrato, ele geralmente usa a qualidade padrão.
Vale a pena notar que, em vez de usar uma combinação de prompts de texto e prompts de imagem, ele arrastou e soltou uma imagem e a regenerou até obter o resultado com o qual estava satisfeito.
A última etapa é a pós-edição no CapCut.
Enquanto Midjourney e Runway geram saída, Neubert começa colocando cenas-chave que ele sabe que terão um grande papel. No que diz respeito ao trailer, ele acha que as cenas externas serão a abertura.
Então comece a planejar o texto. É possível que não haja clipes na linha do tempo quando o texto é posicionado de acordo com a música. Em menos de uma hora, ele compilou o conteúdo de acordo com a linha do tempo e fixou o local. Isso é ótimo para gerar imagens onde você precisa de um ponto fixo extra para contabilizar quais cenas ainda estão faltando.
As etapas específicas tornam-se muito simples, gerar clipes → puxá-los para o CapCut → colocá-los na linha do tempo e, lentamente, juntar a história. Ele também combinou 2 ou 3 pacotes de edição para torná-los mais parecidos com grandes sets de filmagem.
A única habilidade necessária para usar o CapCut é sincronizar o tempo dos clipes. Quando "BWAAA" aparece na música, ele está sempre tentando conectar a ação dentro do clipe ou alinhar os clipes que seguem. Isso faz com que toda a sequência pareça mais envolvente.
Além disso, Neubert considerou como incorporar muito movimento ao clipe. Aqui ele usa dois truques para adicionar movimento.
Primeiro truque: Runway pega uma imagem e calcula quais partes devem ser animadas com base no modelo. Ele fez engenharia reversa dessa ideia, tentando produzir imagens em Midjourney que sugerissem movimento. Isso significa que o desfoque de movimento pode ser adicionado à filmagem ou imagens estáticas de cabeças em movimento ou pessoas podem ser capturadas.
Segunda dica: Ao analisar o vídeo Runway, você descobrirá que no clipe de 4 segundos, a cena geralmente muda bastante. Então, na cena do trailer, ele só usou o corte completo de 4 segundos duas vezes. Todos os outros clipes têm 0,5 a 2 segundos de duração e aceleram os clipes em um fator de 1,5 a 3. A razão para isso é que, como espectador, você vê apenas um clipe curto e, portanto, percebe mais movimento na cena, essencialmente avançando rapidamente nessa parte.
Depois de algumas operações, o que finalmente apresentamos a todos é o chocante trailer de "Gênesis" no início. O trailer também recebeu ótimas críticas, com alguns dizendo que foi o melhor vídeo de geração de passarela que viram até agora.
De fato, depois que o Runway Gen-2 foi disponibilizado para teste gratuito, muitos internautas abriram suas mentes e o combinaram com o Midjourney para criar ousadamente.
Midjourney+Runway: uma combinação mágica de ferramentas de criação de IA
Aqui estão alguns outros casos de uso de geração para compartilhar com você.
A compreensão de Runway dos detalhes dos movimentos do personagem também é relativamente precisa. No vídeo do internauta Shencheng, pode-se ver que os detalhes dos olhos dos personagens tornam o vídeo dinâmico mais vívido, e também pode-se dizer que adiciona um pouco de "habilidades de atuação".
fonte:
Depois que a imagem se move, os movimentos do homem e do cavalo na noite são muito naturais, e há mais espaço para a imaginação dos personagens e até mesmo para as ações subsequentes.
fonte:
A combinação de Midjourney e Runway parece invencível e pode retratar um bom senso de história nas principais ações dos personagens.
Twitter: @ai_insight1
Existem também algumas variações mais ricas e criativas na geração de resultados.
Twitter @kkuldar
Twitter: @Akashi30eth
Alguns internautas também usam uma série de ferramentas de IA para gerar videoclipes, mas os resultados parecem insatisfatórios.
O usuário do Twitter @nickfloats usa ChatGPT para escrever scripts, Midjourney para gerar imagens, Runway para gerar vídeos, Triniti para gerar música, Eleven Labs AI para dublar e os clipes são simplesmente costurados sem outros ajustes.
Roteiro escrito por ChatGPT
Os internautas gravaram todo o processo de sua própria produção e queriam ver quanto tempo levaria para usar a IA para fazer comerciais curtos.
Este internauta comentou sobre os resultados deste curta-metragem como "O anúncio é péssimo". Nesse anúncio, os movimentos dos personagens são rígidos, a relação lógica da imagem não é forte e é difícil destacar o tema a ser expresso como um todo. A cooperação da IA parece não ter surpresas, mas sim mais "sustos".
Comparado com "Genesis", este curta-metragem comercial tem metade do tempo, mas leva muito pouco tempo. Uma das maiores diferenças está nos detalhes do envolvimento humano. Faltam temas cuidadosamente considerados, ajustes coerentes e atenção aos detalhes.
Se apenas a IA puder participar, ou apenas produzir trabalhos baseados na geração de IA, obviamente não é possível produzir resultados de alta qualidade. É sua aplicação e ajuste por humanos que parecem revelar o verdadeiro valor dessas ferramentas.
Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Da síntese de vídeo à edição da trilha sonora, tudo é feito por IA: o trailer do primeiro filme de ficção científica de IA "Genesis" estreou de forma chocante
Fonte: Coração da Máquina See More
Autor: Du Wei, Zewen
Nos últimos dois dias, um trailer de filme de ficção científica "Trailer: Genesis" ("Genesis"), com menos de um minuto de duração, se tornou popular nas redes sociais.
Ir para assistir
É muito ficção científica? O que há de mais "sci-fi" é que desde a síntese de imagem e vídeo, da música à edição, tudo é feito por IA.
O produtor Nicolas Neubert lista as ferramentas de IA correspondentes, onde Midjourney processa imagens, Runway processa vídeos, Pixabay processa música e CapCut edita vídeos.
Midjourney é um artefato de desenho de IA familiar e foi atualizado para a versão 5.2. O Runway é uma ferramenta de produção de vídeo baseada em IA e o Gen-2 está atualmente disponível para avaliação gratuita. A ferramenta de edição CapCut é gratuita para todos, mas você também pode optar por editar no Adobe Premier ou no Final Cut Pro.
Entende-se que Neubert gastou 7 horas, Midjourney gerou 316 prompts, ampliou 128 imagens, Runway gerou 310 vídeos e um vídeo com texto.Um total de 44 vídeos foram usados no trailer.
Hoje, Neubert até escreveu um longo artigo, detalhando o processo de produção de "Genesis", incluindo o processo específico e como usar as ferramentas de IA acima. Vamos dar uma olhada neles um por um.
O primeiro passo na produção oficial é construir o mundo e a história.
Para o enredo Genesis do trailer, Neubert queria aumentar a tensão passo a passo. Assim, são definidas as 3 fases seguintes:
Especificamente, Neubert trabalhou no primeiro rascunho da cópia do trailer, que incluía “Compartilhe tudo, viva as consequências e chame a humanidade para a ação”.
Tendo assim definido o tom geral, ele passou a gerar cenas em torno desses temas. Neubert percorreu toneladas de clipes humanos e de ficção científica sobre temas de ambientes, tecnologia militar e combate, e extraiu uma história de todos eles.
Também para adicionar um pouco de profundidade, ele adicionou fotos de três crianças com amuletos brilhantes, insinuando uma história mais profunda.
Preste atenção especial à dica () aqui. Neubert refinou as dicas de estabilização que obteve em postagens anteriores para criar um modelo para que pudesse reutilizá-lo em todas as cenas do trailer. O modelo é o seguinte:
Para cada cena, ele preenchia os espaços em branco com a cena desejada, certificando-se de que os outros tokens mantivessem a continuidade máxima de tema, cor e iluminação.
Além disso, o uso do recurso de mudanças fortes (Strong iations) facilita a criação de cenas diferentes, mantendo a paleta de cores anterior. Uma cena de uma guerreira pode ser transformada em uma cena de uma cidadã normal, um hacker cibernético ou uma luta sem gerar novos prompts.
Neubert achou esta etapa a mais fácil. No setup, ele sempre tenta ativar o modo Upscaled. No entanto, esse modo geralmente apresenta problemas com rostos; portanto, para fotos de retrato, ele geralmente usa a qualidade padrão.
Vale a pena notar que, em vez de usar uma combinação de prompts de texto e prompts de imagem, ele arrastou e soltou uma imagem e a regenerou até obter o resultado com o qual estava satisfeito.
A última etapa é a pós-edição no CapCut.
Enquanto Midjourney e Runway geram saída, Neubert começa colocando cenas-chave que ele sabe que terão um grande papel. No que diz respeito ao trailer, ele acha que as cenas externas serão a abertura.
Então comece a planejar o texto. É possível que não haja clipes na linha do tempo quando o texto é posicionado de acordo com a música. Em menos de uma hora, ele compilou o conteúdo de acordo com a linha do tempo e fixou o local. Isso é ótimo para gerar imagens onde você precisa de um ponto fixo extra para contabilizar quais cenas ainda estão faltando.
As etapas específicas tornam-se muito simples, gerar clipes → puxá-los para o CapCut → colocá-los na linha do tempo e, lentamente, juntar a história. Ele também combinou 2 ou 3 pacotes de edição para torná-los mais parecidos com grandes sets de filmagem.
A única habilidade necessária para usar o CapCut é sincronizar o tempo dos clipes. Quando "BWAAA" aparece na música, ele está sempre tentando conectar a ação dentro do clipe ou alinhar os clipes que seguem. Isso faz com que toda a sequência pareça mais envolvente.
Além disso, Neubert considerou como incorporar muito movimento ao clipe. Aqui ele usa dois truques para adicionar movimento.
Segunda dica: Ao analisar o vídeo Runway, você descobrirá que no clipe de 4 segundos, a cena geralmente muda bastante. Então, na cena do trailer, ele só usou o corte completo de 4 segundos duas vezes. Todos os outros clipes têm 0,5 a 2 segundos de duração e aceleram os clipes em um fator de 1,5 a 3. A razão para isso é que, como espectador, você vê apenas um clipe curto e, portanto, percebe mais movimento na cena, essencialmente avançando rapidamente nessa parte.
Depois de algumas operações, o que finalmente apresentamos a todos é o chocante trailer de "Gênesis" no início. O trailer também recebeu ótimas críticas, com alguns dizendo que foi o melhor vídeo de geração de passarela que viram até agora.
Midjourney+Runway: uma combinação mágica de ferramentas de criação de IA
Aqui estão alguns outros casos de uso de geração para compartilhar com você.
A compreensão de Runway dos detalhes dos movimentos do personagem também é relativamente precisa. No vídeo do internauta Shencheng, pode-se ver que os detalhes dos olhos dos personagens tornam o vídeo dinâmico mais vívido, e também pode-se dizer que adiciona um pouco de "habilidades de atuação".
Depois que a imagem se move, os movimentos do homem e do cavalo na noite são muito naturais, e há mais espaço para a imaginação dos personagens e até mesmo para as ações subsequentes.
A combinação de Midjourney e Runway parece invencível e pode retratar um bom senso de história nas principais ações dos personagens.
Existem também algumas variações mais ricas e criativas na geração de resultados.
Alguns internautas também usam uma série de ferramentas de IA para gerar videoclipes, mas os resultados parecem insatisfatórios.
O usuário do Twitter @nickfloats usa ChatGPT para escrever scripts, Midjourney para gerar imagens, Runway para gerar vídeos, Triniti para gerar música, Eleven Labs AI para dublar e os clipes são simplesmente costurados sem outros ajustes.
Os internautas gravaram todo o processo de sua própria produção e queriam ver quanto tempo levaria para usar a IA para fazer comerciais curtos.
Comparado com "Genesis", este curta-metragem comercial tem metade do tempo, mas leva muito pouco tempo. Uma das maiores diferenças está nos detalhes do envolvimento humano. Faltam temas cuidadosamente considerados, ajustes coerentes e atenção aos detalhes.
Se apenas a IA puder participar, ou apenas produzir trabalhos baseados na geração de IA, obviamente não é possível produzir resultados de alta qualidade. É sua aplicação e ajuste por humanos que parecem revelar o verdadeiro valor dessas ferramentas.