A Meta redefine a multimodalidade! Ex-alunos da Universidade de Pequim trabalham juntos, o modelo de gráfico Vincent de 7 bilhões de parâmetros supera a difusão

Fonte: Xinzhiyuan

Ex-alunos da Universidade de Pequim trabalham juntos, Meta lança o primeiro modelo multimodal único da história! O modelo 7B derrotou o Diffusion, e o problema do desenho manual perfeito foi perfeitamente resolvido.

Meta está aqui de novo!

Agora mesmo, a Meta lançou um modelo multimodal baseado em Transformer - CM3leon, que fez avanços absolutos nas áreas de gráficos de Vincent e compreensão de imagem, e pode ser considerado o melhor de seu tipo.

Além disso, essa combinação de múltiplas modalidades em um único modelo não tem precedentes em sistemas de IA divulgados anteriormente.

Obviamente, esta pesquisa da Meta define um novo padrão para IA multimodal, o que indica que o sistema de IA pode alternar completamente livremente em tarefas como compreensão, edição e geração de imagens, vídeos e textos.

Enquanto isso, o lançamento do CM3leon marca oficialmente a primeira vez que um modelo autorregressivo igualou o desempenho dos principais modelos de difusão generativa em benchmarks importantes.

Endereço de papel:

Anteriormente, os modelos de três estrelas que recebiam mais atenção no campo do grafo de Vincent eram Stable Diffusion, DALL-E e Midjourney. A técnica do diagrama de Vinsen baseia-se basicamente no modelo de difusão.

Mas o significado revolucionário do CM3leon é que ele usa uma tecnologia completamente diferente - um modelo autorregressivo baseado em tokenizador.

Os resultados mostram que o modelo autorregressivo baseado no tokenizer não é apenas mais eficaz do que o método baseado no modelo de difusão e atinge SOTA no campo dos grafos vicentinos, mas também requer cinco vezes menos cálculo de treinamento do que o método anterior baseado no Transformer !

Prepare-se, vem aí uma onda de efeitos bacanas

Apenas olhar para os indicadores de desempenho brutos não explica nada.

Onde o CM3leon realmente brilha é no manuseio de tarefas mais complexas de solicitação e edição de imagem.

Imagens renderizadas com precisão com resultados impressionantes

Por exemplo, ele pode renderizar imagens com precisão a partir de dicas como “pequeno cacto no Saara usando um chapéu de palha e óculos de sol neon”.

Arbitrário, edite as imagens como quiser

O CM3leon também possui uma capacidade única de editar imagens existentes com base em instruções de texto de formato livre, como alterar a cor do céu ou adicionar objetos em locais específicos.

As funções acima excedem em muito os efeitos que modelos como o DALL-E 2 podem alcançar.

Modelo único multimodal sem precedentes

A arquitetura versátil do CM3leon permite a transição livre e suave entre tarefas de texto, imagem e composição.

Além dos recursos dos diagramas de Vincent, o CM3leon pode gerar anotações para imagens, responder perguntas sobre o conteúdo da imagem e até mesmo criar imagens a partir de descrições textuais de caixas delimitadoras e mapas de segmentação.

Essa combinação de modalidades em um único modelo não tem precedentes em sistemas de IA divulgados anteriormente.

: O que o cachorro está segurando? A modelo respondeu: pau.

: Descreve a imagem fornecida em detalhes. A modelo responde: Nesta imagem, um cachorro segura um pedaço de pau na boca. Há grama no chão. A imagem tem árvores ao fundo.

Dada a descrição de texto da segmentação da caixa delimitadora da imagem, indicando onde uma piscina e um espelho são necessários na imagem, o CM3leon pode gerar completamente a imagem correspondente.

Resolução Super Alta

Uma plataforma separada de super-resolução pode ser integrada com a saída CM3leon, resultando em um aumento dramático na resolução e detalhes.

Entre em "uma pequena ilha circular no meio do lago, com florestas ao redor do lago, alto contraste"——

Resolva o problema do pintor AI

Mesmo o antigo problema de a IA não ser capaz de desenhar mãos foi facilmente resolvido por CM3leon.

Modelo autorregressivo venceu Diffusion pela primeira vez?

No campo dos diagramas de Vincent que se tornou popular nos últimos anos, Midjourney, DALL-E 2 e Stable Diffusion usam tecnologia de difusão. Embora a técnica de difusão produza resultados impressionantes, ela é computacionalmente intensiva, o que a torna computacionalmente intensiva, cara de executar e muitas vezes carece da velocidade necessária para aplicativos em tempo real.

Curiosamente, a OpenAI queria explorar a possibilidade do Transformer como uma geração de imagens por meio de um modelo chamado Image GPT há alguns anos. Mas acabou abandonando a ideia em favor do Diffusion.

O CM3leon tem uma abordagem completamente diferente. Como um modelo baseado no Transformer, ele utiliza um mecanismo de atenção para avaliar a relevância dos dados de entrada (seja texto ou imagens).

Essa diferença arquitetônica permite que o CM3leon alcance maior velocidade de treinamento e melhor paralelização, sendo assim mais eficiente do que os métodos tradicionais baseados em difusão.

Com apenas um único TPU, o CM3leon é treinado com eficiência no conjunto de dados de imagem e atinge uma pontuação FID de 4,88 no conjunto de dados MS-COCO, superando o modelo Parti de texto para imagem do Google.

Ao mesmo tempo, a eficiência do CM3leon é mais de 5 vezes maior que a da arquitetura semelhante do Transformer.

A razão pela qual o CM3leon é tão bem-sucedido pode ser atribuída à sua arquitetura única e método de treinamento.

Uma chave para seu desempenho poderoso é a técnica de ajuste fino supervisionado (SFT).

O SFT já foi usado anteriormente para treinar modelos de geração de texto como o ChatGPT com bons resultados, mas Meta argumenta que também pode ser útil quando aplicado a imagens.

De fato, o ajuste fino da instrução não apenas melhorou o desempenho do CM3Leon na geração de imagens, mas também na escrita de anotações de imagens, permitindo responder a perguntas sobre imagens e melhorar o desempenho das imagens seguindo instruções de texto como "Mude a cor do céu para azul brilhante." ”) para editar a imagem.

O CM3leon emprega apenas uma arquitetura de decodificador-transformador, semelhante aos modelos baseados em texto estabelecidos, mas adiciona a capacidade de processar texto e imagens.

O processo de treinamento envolve aumento de recuperação, bem como ajuste fino de instrução em várias tarefas de geração de imagem e texto.

Ao aplicar técnicas de ajuste fino supervisionadas entre modais, a Meta melhora significativamente o desempenho do CM3leon em anotação de imagem, controle de qualidade visual e edição de texto.

Embora o CM3leon seja treinado apenas em 3 bilhões de tokens de texto, ele corresponde ou até supera os resultados de outros modelos treinados em até 100 bilhões de tokens.

Como o primeiro modelo multimodal ajustado de maneira semelhante aos modelos de linguagem de texto, o Meta incorpora um estágio de pré-treinamento aumentado de recuperação em grande escala e um segundo estágio de ajuste fino supervisionado (SFT) multitarefa no CM3leon.

Como o CM3leon se comporta

Com os recursos do CM3leon, as ferramentas de geração de imagem podem produzir imagens mais consistentes que seguem melhor as dicas de entrada.

A seguir, uma demonstração dos recursos do CM3leon em várias tarefas, todas concluídas por um único modelo:

geração de texto para imagem

A edição de imagem baseada em texto (por exemplo, "mudar a cor do céu para azul brilhante") é desafiadora porque exige que o modelo entenda as instruções textuais e o conteúdo visual.

Especialmente quando objetos complexos estão envolvidos ou quando a dica contém várias restrições que devem estar presentes na saída.

A partir de um texto prompt com uma estrutura altamente composicional, o CM3leon pode gerar uma imagem a seguir.

(1) Pequeno cacto usando um chapéu de palha e óculos de sol neon no deserto do Saara (2) Close-up de uma mão humana (3) Personagem principal do guaxinim em anime se preparando para uma batalha épica com uma espada katana (4) Renderizado em um estilo de fantasia Sinal de pare com "1991" escrito nele

Edição de imagem baseada em texto

Dada uma imagem e um prompt de texto, o CM3leon pode editar a imagem de acordo com as instruções do texto.

Devido à generalidade do modelo CM3leon, isso é obtido com o mesmo modelo das outras tarefas, ao contrário dos modelos anteriores (como InstructPix2Pix) que foram ajustados apenas para edição de imagem baseada em texto.

Ao mesmo tempo, o modelo CM3leon também pode gerar descrições curtas ou longas e responder a perguntas sobre imagens com base em uma série de solicitações diferentes.

Pegue uma castanha.

  • dica:

Pergunta: O que esses dois objetos têm em comum?

Contexto: Escolha a melhor resposta.

Opções: (A) Brilhante (B) Salgado

Resposta: Vamos pensar passo a passo:

  • Saída CM3Leon:

Pense em cada objeto. Batatas fritas são salgadas. Pretzels são salgados. Então a resposta é (B).

- dica:

Descreva detalhadamente todos os objetos em uma determinada imagem.

  • Saída CM3Leon:

Uma placa de rua fica em um poste de metal. O logotipo é azul com texto branco. Há uma luz vermelha no poste. O céu é azul brilhante. Há carros estacionados na rua. Há árvores em ambos os lados da rua. Há edifícios em ambos os lados da rua.

Da mesma forma, o CM3leon pode lidar facilmente com as seguintes "perguntas e respostas sobre imagens".

Para saber mais sobre o CM3leon, a Meta avalia empiricamente modelos ajustados por instrução na geração de legendas de imagem e tarefas de resposta a perguntas visuais e os compara com benchmarks SOTA anteriores.

Comparado com Flamingo (100B) e OpenFlamingo (40B), os dados de texto do modelo CM3leon são significativamente menores (cerca de 3B tokens).

Mas em termos de descrição de imagem MS-COCO e resposta a perguntas VQA2, o CM3leon obteve o mesmo desempenho do OpenFlamingo de amostra zero e até venceu o Flamingo em quase 10 pontos percentuais na tarefa VizWiz.

Edição de imagem guiada por estrutura

A edição de imagem guiada por estrutura visa entender e interpretar instruções textuais fornecidas junto com informações estruturais ou de layout.

Isso permite que os modelos do CM3leon criem compilações de imagens visualmente consistentes e contextualmente apropriadas, ao mesmo tempo em que cumprem as instruções estruturais ou de layout dadas.

Em uma imagem contendo apenas segmentações (sem categorias de texto), gere uma imagem. A entrada aqui representa a imagem da qual a segmentação é extraída.

Super Resolução

Além disso, há um truque comum no campo da geração de imagens - utilizar um estágio de super-resolução treinado separadamente para gerar imagens de alta resolução a partir da saída do modelo original.

Para esse tipo de tarefa de geração de texto para imagem, o CM3leon também funciona muito bem.

(1) Uma xícara de café fumegante com montanhas ao fundo, descansando na estrada

(2) Ao pôr do sol, a bela e majestosa rodovia

(3) Uma ilha circular no centro do lago cercada por florestas

E alguma geração de estilo "fantasia".

(1) Tartaruga nadando debaixo d'água (2) Elefante nadando debaixo d'água (2) Um rebanho de ovelhas

Como construir CM3Leon

Estrutura

Em termos de arquitetura, o CM3Leon usa um Transformer somente decodificador semelhante a um modelo de texto adulto.

Mas a diferença é que o CM3Leon é capaz de inserir e gerar texto e imagens.

trem

Ao adotar a tecnologia de aprimoramento de recuperação de treinamento proposta no artigo "Modelagem de linguagem multimodal retri-aumentada", a Meta melhora muito a eficiência e a capacidade de controle do modelo CM3Leon.

Ao mesmo tempo, a Meta também ajustou o modelo CM3Leon em várias tarefas de geração de imagem e texto.

Esquerda: entradas comuns para várias tarefas; direita: saídas de modelo correspondentes. Durante o treinamento, o Meta concatena as entradas e saídas do modelo e treina com o mesmo objetivo do estágio de pré-treinamento.

À medida que a indústria de IA continua crescendo, modelos generativos como o CM3Leon estão se tornando mais complexos.

Esses modelos aprendem a relação entre visão e texto treinando em milhões de imagens de exemplo, mas também podem refletir vieses presentes nos dados de treinamento.

Portanto, a Meta adota o conjunto de dados licenciado para treinar o CM3Leon.

Os resultados também demonstram que o CM3Leon ainda atinge um desempenho forte, embora a distribuição dos dados seja bastante diferente dos modelos anteriores.

Nesse sentido, a Meta espera que, com o esforço conjunto de todos, seja possível criar um modelo mais preciso, justo e justo.

Pavimentando o caminho para modelos de linguagem multimodais

No geral, a Meta acredita que o excelente desempenho do CM3Leon em várias tarefas é um passo importante para a geração e compreensão de imagens mais realistas.

E esse modelo pode, em última análise, ajudar a aumentar a criatividade e obter melhores aplicações no metaverso.

Sobre o autor

Lili Yu, Bowen Shi e Ramakanth Pasunuru são co-autores do artigo.

Entre eles, Lili Yu obteve um diploma de bacharel no Departamento de Física da Universidade de Pequim e um doutorado em engenharia elétrica e ciência da computação no MIT.

Referências:

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)