O meio da jornada introduziu o oponente mais forte, os gigantes do financiamento da rodada inicial se reuniram e a versão beta permitiu que Musk avançasse com uma "chave"

2023-08-24 08:54:10

**Fonte:**O Poder da Máquina

Por muito tempo, Midjourney sentou-se firmemente no trono do diagrama da AIGC Vincent, com poucas ameaças até o surgimento desta empresa.

Em 23 de agosto, a Ideogram AI, uma startup generativa de inteligência artificial, anunciou oficialmente: “Estamos desenvolvendo as ferramentas de inteligência artificial mais avançadas para tornar a expressão criativa mais fácil, divertida e eficiente”.

Os membros principais da equipe também são os principais membros da equipe do Google Brain Imagen, e a Ideogram AI também é considerada uma tentativa de levar adiante o Imagen:

Mohammad Norouzi (CEO), Jonathan Ho (cofundador), William Chan e Chitwan Saharia são todos os principais autores do modelo de IA de texto para imagem do Google, Imagen, e artigos relacionados foram selecionados para o artigo NeurIPS 2022 Outstanding.

Imagen usa o modelo de linguagem Transformer para converter o texto de entrada em uma sequência de vetores incorporados. Em seguida, uma série de três modelos de difusão (modelo de difusão) converterá esses vetores incorporados em imagens de 1024x1024 pixels.

Por ser conceitualmente simples e fácil de treinar, e também pode produzir efeitos surpreendentemente poderosos, Imagen não apenas remodela a compreensão de todos sobre modelos de difusão, mas também abre um novo paradigma de gráficos de Vincent além do DALL-E 2.

Mais tarde, depois que Meta anunciou seu modelo de IA de vídeo de texto Make-A-Video, o Google lançou o modelo de vídeo Imagen Video (olha, os nomes são semelhantes), que é baseado no modelo de difusão de vídeo em cascata para gerar vídeos de alta definição.

Imagen Video herda a função de representar texto com precisão do sistema de imagem de geração de texto Imagen anterior. Com base nisso, ele pode gerar várias animações criativas apenas por meio de uma simples descrição.

Os atuais membros da equipe mostrados no site oficial.

“Nossa equipe fundadora liderou projetos transformadores de inteligência artificial no Google Brain, na UC Berkeley, na Carnegie Mellon University e na Universidade de Toronto.” O site oficial mostra.

Mohammad Norouzi trabalhou no Google Brain por sete anos antes de iniciar seu próprio negócio. O último nível no Google era um cientista pesquisador sênior, com foco em modelos generativos. Ideogram AI tem a mais ampla gama de trabalhos básicos em inteligência artificial, incluindo Imagen, Imagen Video, WaveGrad para síntese de fala, tradução automática neural, aprendizagem de representações visuais, estudo contrastivo e assim por diante. Os membros da equipe colaborativos também são os mais.

O cofundador Jonathan Ho, com doutorado pela UC Berkeley, trabalhou tanto no modelo de difusão que sua saída é considerada por especialistas do setor como uma grande perda para o Google.

Em abril de 2022, o Google propôs os Modelos de Difusão de Vídeo (Video Diffusion Models), e relatou pela primeira vez os resultados do modelo de difusão gerando vídeos a partir de texto (com bons resultados). Mohammad Norouzi e Jonathan Ho são os principais autores do artigo.

Jonathan Ho também é um dos fundadores do modelo de difusão e propôs o modelo de difusão sem ruído Denoising Diffusion Probabilistic Models. (Curiosamente, um dos coautores, Pieter Abbeel, também é investidor nesta empresa).

Chitwan Saharia liderou o trabalho em modelos de difusão imagem a imagem no Google. Além de seu trabalho em modelos de difusão, Willian chan trabalhou em reconhecimento de fala neural enquanto estava no Google, trabalhando com Mohammad Norouzi no WaveGrad para síntese de fala.

Talvez devido às preocupações do Google com segurança e ética, ele precisa fazer mais regulamentações para decidir se abrirá o código-fonte do Imagen e do Imagen Video. Esses backbones decidiram deixar o negócio.

“Estamos ultrapassando os limites da inteligência artificial, concentrando-nos na criatividade e em elevados padrões de confiança e segurança.” Concluiu o anúncio oficial.

Captura de tela do site oficial

No mesmo dia, a empresa também anunciou que levantou um total de US$ 16,5 milhões em financiamento inicial liderado por a16z e Index Ventures. Vários backbones da indústria bem conhecidos também participaram desta rodada de investimentos.

Por exemplo, Ryan Dahl, pai do Node.js, Raquel Urtasun, cientista-chefe da Uber, Jeff Dean, Andrej Karpathy, Pieter Abbeel, Tom Preston-Werner, fundador do GitHub.

Ao mesmo tempo, a empresa também anunciou o lançamento da versão beta pública da v0.1. Nós também simplesmente experimentamos isso. Atualmente é oferecido apenas o serviço de geração de imagens a partir de texto, o funcionamento é muito simples, basta inserir seus requisitos e selecionar o estilo e proporção da imagem gerada.

A capacidade de compreensão do sistema ainda é boa, principalmente a compreensão do texto que precisa ser gerado na imagem. A desvantagem é que a velocidade de resposta é relativamente lenta, as instruções chinesas não podem ser compreendidas e a compreensão espacial da composição precisa ser melhorada.

página de operação

“Ponyo mergulhando no leite com dorfina”, AI parece não conseguir entender o “leite” do comando, mas deu a imagem de acordo com seu próprio entendimento (mar).

Mudamos a entrada: "Elon Musk dá as mãos a Lisa (blackpink) em um carro Tesla, (cinemático)"

Basicamente correto. É que os dois têm um problema no rosto. Esta é Lisa?

Deixe Musk viajar e experimentar o estilo Hanfu, e o resultado é realmente um herói.

「Elon Musk com cabelos longos em roupas tradicionais chinesas, foto」

“Blackpink Jennie mas muito gorda, foto.” Sim, fica assim depois de ganhar peso.

Vamos dar uma olhada nos resultados de alguns usuários do Twitter. Mesmo que algum texto precise ser gerado na imagem gerada, o sistema pode fazer isso.

Por exemplo, 「Um adorável lacaio segurando uma placa que diz 『Acabou, MidJourney』, escrito exatamente, renderização 3D, tipografia」

Amigos do Twitter disseram que, embora o sistema nem sempre conseguisse escrever corretamente, a taxa de sucesso era boa.

「Um pikachu fofo e fofo em pé em uma grande lua fofa, segurando um letreiro de néon que diz 『para a lua』, renderização em 3D」

Entre os filmes lançados recentemente, tanto "Barbie" quanto "Oppenheimer" atraíram mais atenção.Os usuários do Twitter solicitaram a geração de um design de pôster de filme sobre "Barbenheimer (Barbenheimer)", referindo-se à Barbie e às armas nucleares em grande estilo. O efeito é o seguinte.

Embora seja provável que as informações do filme apareçam após o prazo de treinamento, o sistema ainda lida bem com essa palavra composta. Além disso, velho problema, os rostos dos personagens não são bons o suficiente.

「Palavra 『surreal』 escrita e renderizada em uma pintura surreal de estilo Dali, tipografia」

「um boneco de neve derretido em um vulcão」

「Palavra 『NVIDIA』renderizada em tipografia de circuito de chip GPU, cyperpunk, ficção científica」

「linda garota na pintura de Dali, com legenda『Stanford』, tipografia」

Um elegante gato ragdoll com óculos de sol Gucci segurando uma placa que diz Feliz Domingo, fundo preto, pôster

Existem 4 objetos na cena. Uma pirâmide vermelha fica em cima de um cubo azul. Uma esfera amarela está localizada abaixo do cubo azul. Um hexágono de mármore está localizado à esquerda da pirâmide, com o cubo azul no topo.

Parece que a compreensão atual do sistema sobre composição e espaço não está em vigor.

Vitrine do trabalho em outras homepages.

Link comestível:

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

2 Curtidas

Recompensa
2
1
Compartilhar

Comentário

0/400

GateUser-bcf7bb63

· 2023-12-19 01:44

Como registrar isso, vi que não existem tokens, você precisa se cadastrar para conseguir pontos?

Ver originalResponder0

Tema
ETH Breaks $3600
19k Popularidade
Gate Derivatives Volume Hits New High
18k Popularidade
CPI Data Incoming
32k Popularidade
4Join Gate VIP to Win MacBook
31k Popularidade
5MicroStrategy Buys More Bitcoin
3k Popularidade
6BTC Hits New High
95k Popularidade
7My Gate Moments
28k Popularidade
8VIP Exclusive Airdrop Carnival
27k Popularidade
9Fed June Meeting Minutes
7k Popularidade
10Trump Tariff Hikes
18k Popularidade

Marcar

sitemap