Por que os modelos de linguagem ficam atrás dos modelos de difusão em termos de geração visual? Pesquisa do Google, CMU mostra que tokenizador é fundamental.
Fonte da imagem: Gerado por Unbounded AI
Grandes modelos de linguagem (LLM ou LM) começaram a gerar linguagens, mas com o tempo eles se tornaram capazes de gerar conteúdo em várias modalidades e se tornaram dominantes em áudio, fala, geração de código, aplicações médicas, robótica e muito mais.
Claro, LM também pode gerar imagens e vídeos. Durante esse processo, os pixels de imagem são mapeados por tokenizadores visuais em uma série de tokens discretos. Esses tokens são então alimentados no transformador LM e são usados para modelagem generativa como um vocabulário. Embora a LM tenha feito avanços significativos na geração visual, a LM ainda tem um desempenho pior do que os modelos de difusão. Por exemplo, quando avaliado no conjunto de dados ImageNet, o benchmark ouro para geração de imagens, o melhor modelo de linguagem teve um desempenho até 48% pior do que o modelo de difusão (FID 3,41 vs. 1,79 ao gerar imagens com resolução de 256ˆ256).
Por que os modelos de linguagem estão atrasados em relação aos modelos de difusão em termos de geração visual? Pesquisadores do Google, CMU, acreditam que a principal razão é a falta de uma boa representação visual, semelhante ao nosso sistema de linguagem natural, para modelar efetivamente o mundo visual. Para confirmar essa hipótese, eles realizaram um estudo.
Link do artigo:
Este estudo mostra que, com um bom tokenizador visual, os modelos de linguagem de mascaramento superam os modelos de difusão SOTA em termos de fidelidade generativa e eficiência de benchmarks de imagem e vídeo para os mesmos dados de treinamento, tamanhos de modelo comparáveis e orçamento de treinamento. Esta é a primeira evidência de que um modelo de linguagem supera um modelo de difusão no icônico benchmark ImageNet.
Deve-se enfatizar que o objetivo dos pesquisadores não é afirmar se o modelo de linguagem é superior a outros modelos, mas promover a exploração de métodos de tokenização visual LLM. A diferença fundamental entre o LLM e outros modelos, como modelos de difusão, é que o LLM usa um formato latente discreto, ou seja, tokens obtidos a partir da visualização de tokenizadores. Este estudo mostra que o valor desses tokens visuais discretos não deve ser negligenciado por causa de suas seguintes vantagens:
Compatibilidade com LLM. A principal vantagem da representação de token é que ele compartilha a mesma forma que o token de linguagem, permitindo que ele aproveite diretamente as otimizações que a comunidade fez ao longo dos anos para desenvolver LLM, incluindo treinamento e inferência mais rápidos, avanços na infraestrutura do modelo, maneiras de escalar modelos e inovações como otimização de GPU/TPU. Unificar visão e linguagem através do mesmo espaço simbólico pode estabelecer a base para um LLM verdadeiramente multimodal que pode ser compreendido, gerado e raciocinado em nosso ambiente visual.
Representação por compressão. Tokens discretos podem fornecer uma nova perspetiva sobre a compressão de vídeo. Os tokens visuais podem ser usados como um novo formato de compressão de vídeo para reduzir o armazenamento em disco e a largura de banda ocupada pelos dados durante a transmissão pela Internet. Ao contrário dos pixels RGB compactados, esses tokens podem ser alimentados diretamente no modelo generativo, ignorando as etapas tradicionais de descompressão e codificação potencial. Isso pode acelerar o processamento da criação de aplicativos de vídeo, o que é especialmente benéfico em cenários de computação de borda.
Vantagens da compreensão visual. Estudos anteriores mostraram que tokens discretos são valiosos como alvos de pré-treinamento na aprendizagem de representação autosupervisionada, como discutido em BEiT e BEVT. Além disso, o estudo descobriu que o uso de tokens como entradas de modelo melhorou a robustez e a generalização.
Neste artigo, os pesquisadores propõem um tokenizador de vídeo chamado MAGVIT-v2, que visa mapear vídeos (e imagens) em tokens discretos compactos.
O modelo é baseado no tokenizador de vídeo SOTA – MAGVIT dentro da estrutura VQ-VAE. Com base nisso, os pesquisadores propõem duas novas tecnologias: 1) um novo método de quantificação sem pesquisa que torna possível aprender um grande número de palavras para melhorar a qualidade da geração de modelos de linguagem; 2) Através de uma extensa análise empírica, eles identificaram modificações no MAGVIT que não só melhoram a qualidade de construção, mas também permitem que imagens e vídeos sejam tokenizados usando um vocabulário compartilhado.
Os resultados experimentais mostram que o novo modelo supera o anterior tokenizador de vídeo com melhor desempenho, MAGVIT, em três áreas-chave. Primeiro, o novo modelo melhora significativamente a qualidade de construção do MAGVIT, atualizando o SOTA em benchmarks comuns de imagem e vídeo. Em segundo lugar, estudos de usuários mostraram que sua qualidade de compressão excede a do MAGVIT e do padrão de compressão de vídeo atual HEVC. Além disso, é comparável à próxima geração de codec de vídeo VVC. Finalmente, os pesquisadores mostraram que seu novo token teve um desempenho mais forte na tarefa de compreensão de vídeo com duas configurações e três conjuntos de dados em comparação com o MAGVIT.
Introdução ao Método
Este artigo apresenta um novo tokenizador de vídeo que visa mapear dinamicamente o tempo-espaço em cenas visuais em tokens discretos compactos adequados para modelos de linguagem. Além disso, o método baseia-se no MAGVIT.
O estudo então destacou dois novos designs: Quantização sem pesquisa (LFQ) e melhorias no modelo de tokenizador.
Sem quantização de pesquisa
Recentemente, o modelo VQ-VAE fez grandes progressos, mas uma desvantagem deste método é que a relação entre a melhoria da qualidade da reconstrução e a qualidade da geração subsequente não é clara. Muitas pessoas pensam erroneamente que melhorar a reconstrução é equivalente a melhorar a geração de modelos de linguagem, por exemplo, expandir o vocabulário pode melhorar a qualidade da reconstrução. No entanto, essa melhoria só se aplica à geração de vocabulário pequeno, o que pode prejudicar o desempenho do modelo de linguagem quando o vocabulário é muito grande.
Este artigo reduz a dimensão de incorporação do livro de códigos VQ-VAE para 0, que é o livro de códigos
é substituído por um conjunto de inteiros
daí em diante
。
Ao contrário do modelo VQ-VAE, este novo design elimina completamente a necessidade de pesquisas incorporadas, daí o nome LFQ. Este artigo conclui que o LFQ pode melhorar a qualidade da geração de modelos linguísticos através do aumento do vocabulário. Como mostra a curva azul na Figura 1, tanto a reconstrução quanto a geração melhoram à medida que o vocabulário aumenta, uma característica não observada nas abordagens atuais do VQ-VAE.
Até agora, existem muitos métodos LFQ disponíveis, mas este artigo discute uma variante simples. Especificamente, o espaço latente do LFQ é decomposto em produtos cartesianos de variáveis unidimensionais, ou seja,
。 Suponha que dado um vetor de recurso
, representando quantitativamente cada dimensão de q (z) obtida a partir do seguinte:
Para LFQ, o índice de token para q (z) é:
Além disso, este artigo também adiciona a penalidade de entropia durante o treinamento:
Melhorias no modelo do Visual Tokenizer
Imagens federadas - tokenização de vídeo. Para construir um tokenizador de imagem-vídeo federado, é necessário um novo design. Este artigo conclui que os CNNs 3D têm um desempenho melhor do que os transformadores espaciais.
Este artigo explora duas opções de design possíveis, como a Figura 2b combinando C-ViViT com MAGVIT; A Figura 2c usa a convolução 3D causal temporal no lugar de uma CNN 3D regular.
A Tabela 5a compara empiricamente o desenho da Figura 2 e conclui que as CNNs 3D causais têm o melhor desempenho.
Além de usar a camada CNN 3D causal, outras modificações arquitetônicas foram feitas para melhorar o desempenho do MAGVIT, como alterar o downsampler do codificador de pool médio para convolução de passos; Outro exemplo é adicionar uma camada de normalização de grupo adaptativo antes do bloco residual de cada resolução no decodificador.
Resultados Experimentais
Os experimentos verificam o desempenho do tokenizador proposto neste artigo a partir de três partes: geração de vídeo e imagem, compressão de vídeo e reconhecimento de movimento. A Figura 3 compara visualmente os resultados do Tokenizer com estudos anteriores.
Geração de vídeo. A Tabela 1 mostra que este modelo supera todas as artes anteriores em ambos os benchmarks, demonstrando que um bom tokenizador visual desempenha um papel importante ao permitir que os LMs produzam vídeos de alta qualidade.
A Figura 4 mostra uma amostra qualitativa do modelo.
Geração de imagens. Neste artigo, os resultados da geração de imagens do MAGVIT-v2 são avaliados de acordo com as configurações de condição padrão da classe ImageNet. Os resultados mostram que o modelo proposto supera o modelo de difusão com melhor desempenho em termos de qualidade amostral (ID e IS) e eficiência do tempo de inferência (etapa de amostragem).
A Figura 5 mostra a visualização.
Compressão de vídeo. Os resultados são mostrados na Tabela 3, e o modelo supera o MAGVIT em todas as métricas e supera todos os métodos no LPIPS.
Compreensão de vídeo. Como mostrado na Tabela 4, o MAGVIT-v2 supera o melhor MAGVIT anterior nessas avaliações.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Na geração de imagem e vídeo, o modelo de linguagem derrotou o modelo de difusão pela primeira vez, e o tokenizador é a chave
Grandes modelos de linguagem (LLM ou LM) começaram a gerar linguagens, mas com o tempo eles se tornaram capazes de gerar conteúdo em várias modalidades e se tornaram dominantes em áudio, fala, geração de código, aplicações médicas, robótica e muito mais.
Claro, LM também pode gerar imagens e vídeos. Durante esse processo, os pixels de imagem são mapeados por tokenizadores visuais em uma série de tokens discretos. Esses tokens são então alimentados no transformador LM e são usados para modelagem generativa como um vocabulário. Embora a LM tenha feito avanços significativos na geração visual, a LM ainda tem um desempenho pior do que os modelos de difusão. Por exemplo, quando avaliado no conjunto de dados ImageNet, o benchmark ouro para geração de imagens, o melhor modelo de linguagem teve um desempenho até 48% pior do que o modelo de difusão (FID 3,41 vs. 1,79 ao gerar imagens com resolução de 256ˆ256).
Por que os modelos de linguagem estão atrasados em relação aos modelos de difusão em termos de geração visual? Pesquisadores do Google, CMU, acreditam que a principal razão é a falta de uma boa representação visual, semelhante ao nosso sistema de linguagem natural, para modelar efetivamente o mundo visual. Para confirmar essa hipótese, eles realizaram um estudo.
Este estudo mostra que, com um bom tokenizador visual, os modelos de linguagem de mascaramento superam os modelos de difusão SOTA em termos de fidelidade generativa e eficiência de benchmarks de imagem e vídeo para os mesmos dados de treinamento, tamanhos de modelo comparáveis e orçamento de treinamento. Esta é a primeira evidência de que um modelo de linguagem supera um modelo de difusão no icônico benchmark ImageNet.
Deve-se enfatizar que o objetivo dos pesquisadores não é afirmar se o modelo de linguagem é superior a outros modelos, mas promover a exploração de métodos de tokenização visual LLM. A diferença fundamental entre o LLM e outros modelos, como modelos de difusão, é que o LLM usa um formato latente discreto, ou seja, tokens obtidos a partir da visualização de tokenizadores. Este estudo mostra que o valor desses tokens visuais discretos não deve ser negligenciado por causa de suas seguintes vantagens:
Compatibilidade com LLM. A principal vantagem da representação de token é que ele compartilha a mesma forma que o token de linguagem, permitindo que ele aproveite diretamente as otimizações que a comunidade fez ao longo dos anos para desenvolver LLM, incluindo treinamento e inferência mais rápidos, avanços na infraestrutura do modelo, maneiras de escalar modelos e inovações como otimização de GPU/TPU. Unificar visão e linguagem através do mesmo espaço simbólico pode estabelecer a base para um LLM verdadeiramente multimodal que pode ser compreendido, gerado e raciocinado em nosso ambiente visual.
Representação por compressão. Tokens discretos podem fornecer uma nova perspetiva sobre a compressão de vídeo. Os tokens visuais podem ser usados como um novo formato de compressão de vídeo para reduzir o armazenamento em disco e a largura de banda ocupada pelos dados durante a transmissão pela Internet. Ao contrário dos pixels RGB compactados, esses tokens podem ser alimentados diretamente no modelo generativo, ignorando as etapas tradicionais de descompressão e codificação potencial. Isso pode acelerar o processamento da criação de aplicativos de vídeo, o que é especialmente benéfico em cenários de computação de borda.
Vantagens da compreensão visual. Estudos anteriores mostraram que tokens discretos são valiosos como alvos de pré-treinamento na aprendizagem de representação autosupervisionada, como discutido em BEiT e BEVT. Além disso, o estudo descobriu que o uso de tokens como entradas de modelo melhorou a robustez e a generalização.
Neste artigo, os pesquisadores propõem um tokenizador de vídeo chamado MAGVIT-v2, que visa mapear vídeos (e imagens) em tokens discretos compactos.
O modelo é baseado no tokenizador de vídeo SOTA – MAGVIT dentro da estrutura VQ-VAE. Com base nisso, os pesquisadores propõem duas novas tecnologias: 1) um novo método de quantificação sem pesquisa que torna possível aprender um grande número de palavras para melhorar a qualidade da geração de modelos de linguagem; 2) Através de uma extensa análise empírica, eles identificaram modificações no MAGVIT que não só melhoram a qualidade de construção, mas também permitem que imagens e vídeos sejam tokenizados usando um vocabulário compartilhado.
Os resultados experimentais mostram que o novo modelo supera o anterior tokenizador de vídeo com melhor desempenho, MAGVIT, em três áreas-chave. Primeiro, o novo modelo melhora significativamente a qualidade de construção do MAGVIT, atualizando o SOTA em benchmarks comuns de imagem e vídeo. Em segundo lugar, estudos de usuários mostraram que sua qualidade de compressão excede a do MAGVIT e do padrão de compressão de vídeo atual HEVC. Além disso, é comparável à próxima geração de codec de vídeo VVC. Finalmente, os pesquisadores mostraram que seu novo token teve um desempenho mais forte na tarefa de compreensão de vídeo com duas configurações e três conjuntos de dados em comparação com o MAGVIT.
Introdução ao Método
Este artigo apresenta um novo tokenizador de vídeo que visa mapear dinamicamente o tempo-espaço em cenas visuais em tokens discretos compactos adequados para modelos de linguagem. Além disso, o método baseia-se no MAGVIT.
O estudo então destacou dois novos designs: Quantização sem pesquisa (LFQ) e melhorias no modelo de tokenizador.
Sem quantização de pesquisa
Recentemente, o modelo VQ-VAE fez grandes progressos, mas uma desvantagem deste método é que a relação entre a melhoria da qualidade da reconstrução e a qualidade da geração subsequente não é clara. Muitas pessoas pensam erroneamente que melhorar a reconstrução é equivalente a melhorar a geração de modelos de linguagem, por exemplo, expandir o vocabulário pode melhorar a qualidade da reconstrução. No entanto, essa melhoria só se aplica à geração de vocabulário pequeno, o que pode prejudicar o desempenho do modelo de linguagem quando o vocabulário é muito grande.
Este artigo reduz a dimensão de incorporação do livro de códigos VQ-VAE para 0, que é o livro de códigos
Ao contrário do modelo VQ-VAE, este novo design elimina completamente a necessidade de pesquisas incorporadas, daí o nome LFQ. Este artigo conclui que o LFQ pode melhorar a qualidade da geração de modelos linguísticos através do aumento do vocabulário. Como mostra a curva azul na Figura 1, tanto a reconstrução quanto a geração melhoram à medida que o vocabulário aumenta, uma característica não observada nas abordagens atuais do VQ-VAE.
Imagens federadas - tokenização de vídeo. Para construir um tokenizador de imagem-vídeo federado, é necessário um novo design. Este artigo conclui que os CNNs 3D têm um desempenho melhor do que os transformadores espaciais.
Este artigo explora duas opções de design possíveis, como a Figura 2b combinando C-ViViT com MAGVIT; A Figura 2c usa a convolução 3D causal temporal no lugar de uma CNN 3D regular.
Resultados Experimentais
Os experimentos verificam o desempenho do tokenizador proposto neste artigo a partir de três partes: geração de vídeo e imagem, compressão de vídeo e reconhecimento de movimento. A Figura 3 compara visualmente os resultados do Tokenizer com estudos anteriores.