DALL·E 3 será lançado para testes! O problema dos astronautas que andam a cavalo está resolvido, 50 objetos são especificados em uma pintura e a Microsoft está profundamente envolvida na pesquisa como nunca antes

2023-09-24 06:19:46

Fonte: Qubits

O teste limitado DALL·E 3 foi aberto primeiro pelo Microsoft Bing. Veja se você é um dos imperadores europeus?

△ do Windows mais recente

Não importa se você não recebeu a qualificação, juntamente com pré-visualizações de pesquisas de terceiros e testes internos feitos por funcionários da OpenAI, vários casos de teste surgiram um após o outro, o que com certeza será agradável.

A mais exagerada é “50 objetos diferentes aparecem na imagem especificada”, e centenas deles foram desenhados.

Além da disposição simples dos ladrilhos, esses objetos podem ser combinados de forma mais criativa.

Para o conceito contrafactual de astronauta andando a cavalo, vários modelos da OpenAI e do Google no passado só podiam desenhar astronautas andando a cavalo**.

O artigo foi geralmente considerado um caso de fracasso e foi ridicularizado por Marcus, o pessimista da IA na época.

Agora, o DALL·E 3 pode lidar facilmente com isso com o suporte do ChatGPT.

O grande progresso do DALL·E 3 desta vez não é apenas o resultado dos esforços próprios da OpenAI, mas também o resultado da cooperação conjunta entre ** e Microsoft**.

Embora não esteja claramente declarado, pelo menos três engenheiros e pesquisadores da Microsoft estão envolvidos na parte de pesquisa da lista de contribuições, e a maioria dos membros na parte de otimização de inferência são da equipe Microsoft DeepSpeed.

Olhando para o GPT-4, ele ainda foi desenvolvido principalmente internamente pela OpenAI e recebeu acesso aberto à Microsoft e outras instituições de pesquisa para testes.

Esta mudança no modelo de cooperação** representa também um maior aprofundamento da relação entre as duas empresas**.

Uma pintura especifica 50 objetos

Confirmado pelo CEO do Microsoft Bing Mikhail Parakhin, a pequena porcentagem de usuários sortudos já se qualificou para o teste.

Como o número de vagas é muito limitado, os internautas que mal podem esperar apresentaram suas ideias on-line e pediram ajuda às pessoas com contas para testá-las.

O internauta que propôs desenhar 50 objetos diferentes só queria testar quantos objetos DALL·E 3 caberiam em uma imagem, semelhante à "janela de contexto" do grande modelo de linguagem.

Nathan Shipley, um designer terceirizado que recebeu uma versão prévia do estudo, aceitou o desafio.

Primeiro, ele pediu ao ChatGPT para listar aleatoriamente 50 objetos diários e, em seguida, pediu diretamente para desenhar esses objetos em uma pintura. A palavra de prompt completa é ChatGPT completa sozinho e então DALL·E 3 a desenha.

Em seguida, Nathan perguntou: "Você consegue criar a imagem de um surfista colocando esses objetos em uma pilha enquanto surfa forte?"

ChatGPT adicionou alguns detalhes no prompt:

Um surfista polinésio de meia-idade com pele bronzeada segura 50 itens enquanto surfa forte, incluindo uma xícara de chá, uma bicicleta, um guarda-chuva... e uma expressão de determinação e leve pânico enquanto as ondas quebram ao seu redor. tentando equilibrar esses objetos e sua prancha de surf.

Como resultado, obtive uma imagem que basicamente atendeu aos requisitos de uma só vez, exceto que a expressão do personagem parecia mais pânico extremo do que pânico moderado.

Mais tarde, Nathan pediu uma perspectiva mais baixa. Desta vez, ChatGPT mudou a descrição do personagem na palavra inicial para “uma idosa espanhola”.

Os espectadores acharam isso muito surpreendente, mas também apontaram por que o tamanho do lápis era desproporcional a outros objetos.

Algumas pessoas especulam que o modelo só sabe a aparência de um objeto, mas não seu tamanho relativo, especialmente porque as fotos publicitárias de canetas costumam usar close-ups.

Além disso, Nathan também perguntou ao ChatGPT quais parâmetros da tela o usuário pode controlar.

ChatGPT respondeu da seguinte forma:

descrever:

Você pode fornecer uma descrição detalhada da imagem desejada. Quanto mais específico e detalhado você for, mais próxima a imagem resultante estará dos seus desejos.

Estilo e meio:

Você pode especificar o estilo ou meio da imagem, como "Pintura", "Foto", "Ilustração", "Desenho animado", "Aquarela", "Renderização 3D", etc.

Resolução:

Por padrão, as imagens são geradas com resolução de 1729x1024. Mas se a sua descrição sugerir um retrato de corpo inteiro ou algo mais adequado para proporções altas, a imagem será gerada em 1024x1792. Você também pode solicitar resolução quadrada (1024x1024), se necessário.

Número de fotos

: Se você não especificar uma, normalmente crio quatro imagens diferentes com base na sua descrição. Porém, você pode solicitar um número específico (até quatro).

Revisar

: se não estiver satisfeito com os resultados iniciais, você poderá fornecer comentários e solicitar revisões. Embora não seja possível modificar diretamente as imagens existentes, posso usar seu feedback para gerar novas imagens que melhor se adaptem à sua visão.

Semente aleatória

: Se você quiser modificar uma imagem anterior, posso usar a semente nos metadados dessa imagem para gerar uma nova versão. Isso garante uma certa consistência entre as imagens originais e modificadas.

Observe,

Algumas limitações se aplicam. Por exemplo, as imagens de figuras públicas e os estilos dos artistas dos últimos 100 anos não podem ser criados diretamente.

O foco está nas costas:

**No entanto, posso oferecer alternativas ou usar adjetivos para capturar a essência de um estilo específico sem citá-lo diretamente. **

Enigma do astronauta para andar a cavalo resolvido

Entre os funcionários internos da OpenAI, Will DePue é o mais ativo na divulgação dos resultados do teste DALL·E 3.

No teste de astronauta de equitação, ele disse que não teve 100% de sucesso.

Você pode acertar em duas ou três tentativas porque GPT-4 trabalha com você para refinar as palavras do prompt até acertar.

Com algum esforço, você pode conseguir quase tudo o que quiser.

Alguns internautas tentaram usar o MidJourney para obter os mesmos resultados, mas só se pode dizer que não é totalmente impossível, mas exige muito esforço.

Quase impossível, requer muita engenharia e é difícil de reproduzir.

Se você é um usuário experiente do MidJourney, é melhor tentar ver se funciona.

No desafio "8 girafas bebendo água" apresentado pelos internautas, o DALL·E 3 mostrou mais uma vez a fraqueza de ser difícil de contar com precisão.

△ Conte quantas girafas há na foto

Mais tentativas errôneas também resultaram em uma girafa de duas cabeças.

Fazer com que a IA conte corretamente não resolve desta vez, mas pelo menos resolve o problema de compreensão das relações espaciais.

No desafio “Quatro zebras correndo na pastagem, um leão perseguindo atrás e uma águia acima, não há outros animais na imagem” proposto pelos internautas, a relação espacial está basicamente correta, mas há um extra zebra.

Em comparação, tanto o DALL·E 2 quanto o Stable Diffusion têm pior compreensão das relações espaciais.

Adam Goldberg, responsável pela versão empresarial do ChatGPT na OpenAI, também postou muitos resultados de alta qualidade, mas não compartilhou as palavras imediatas.

Jerry Tworek, responsável por escrever códigos de IA e ferramentas de chamada, criou muitas pinturas conceituais abstratas, como "Divisão de Células Mecânicas".

e "Árvores de programas de computador na galáxia".

Microsoft OpenAI coopera

Desta vez, o DALL·E 3 fez uma grande melhoria: além de integrar o ChatGPT, como exatamente é feita a parte de geração de imagens?

Infelizmente, dada a tendência de OpenAI cada vez mais perto, é provável que não publique artigos como as duas gerações anteriores. Só podemos fazer algumas suposições a partir da lista de contribuições.

Há cinco autores no artigo DALL·E 2.

Quanto ao DALL·E 3, independentemente das equipes de produto, segurança, comunicação pública e jurídica, 18 pessoas participaram somente na parte da pesquisa.

Entre eles está Yang Song, um ex-aluno da Tsinghua que propôs os Modelos de Consistência.

O modelo de consistência é mais rápido que o modelo de difusão mais popular e pode gerar 64.256*256 imagens em 3,5 segundos.

No entanto, desta vez a contribuição de pesquisa de Song Yang é menor. Não há certeza se DALL·E 3 usou o modelo de consistência. É mais provável que ele tenha emprestado seu método no modelo de difusão melhorado.

Além disso, além do autor do DALL·E 2 e Ouyang Long da equipe ChatGPT, pelo menos três pesquisadores são da Microsoft.

Jianfeng Wang formou-se na Universidade de Ciência e Tecnologia da China e atua como pesquisador-chefe na Microsoft.

Dr. Lijuan Wang formou-se na Universidade de Tsinghua e trabalha como diretor-gerente de pesquisa na Microsoft.

Os dois participaram da pesquisa do NUWA-Ininity, uma geração infinita de imagens em tela.

Lindsey Li (Lindsey Li) é ex-aluna do Instituto de Tecnologia de Pequim. Ela recebeu dois títulos de mestrado pela Purdue University e pela UC San Diego, respectivamente. Ela é pesquisadora sênior da Microsoft e publicou muitos artigos importantes em conferências na área. da multimodalidade.

Além da pesquisa, a otimização de inferência do DALL·E 3 conta com a profunda participação da equipe Microsoft DeepSpeed.

Deepspeed é uma biblioteca de otimização de aprendizagem profunda de código aberto que reduz o consumo de energia computacional e o uso de memória, além de treinar e inferir modelos distribuídos em larga escala por meio de melhor paralelismo no hardware existente.

Muitos deles expressaram seu prazer em participar deste trabalho e ficaram entusiasmados com o lançamento do DALL·E 3.

Por fim, entre as contribuições especiais, o CEO do Bing, Mikhail Parakhin da Microsoft, e o Vice-presidente-chefe da Azure Cloud, Misha Bilenko estão entre eles.

A Microsoft também confirmou em suas atividades de lançamento anteriores que o Bing integrará diretamente o DALL·E 3.

De acordo com as regras atuais, o DALL·E 2 no Bing é gratuito. Serão emitidos 99 tokens de aceleração. Sem tokens, levará mais tempo para entrar na fila.

Embora o DALL·E 3 custe US$ 20 por mês no ChatGPT Plus em outubro.

Mas como o GPT-4 é fornecido gratuitamente no Bing, você também pode esperar uma onda de jogos grátis DALL·E 3 no futuro~

Links de referência:

[1]

[2]

[3]

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
1/3
1Simple Earn Annual Rate 24.4%
35k Popularidade
2Gate Launchpad List IKA
38k Popularidade
3ETH Trading Volume Surges
38k Popularidade
4Gate ETH 10th Anniversary Celebration
22k Popularidade
5Trump’s AI Strategy
18k Popularidade

Pino