Novos desenvolvimentos em modelos de bytes grandes: a primeira introdução de posicionamento visual para obter entendimento conjunto multimodal refinado, código aberto e reprodução de demonstração

Fonte original: Qubit

Modelo de byte grande, BuboGPT está aqui.

Ele oferece suporte a três modos de texto, imagem e áudio para obter uma compreensão conjunta multimodal refinada.

Onde responder e o que dizer, o que se diz e o que não se diz, fica claro à primeira vista:

Além de ter "olhos inteligentes", também existem "ouvidos inteligentes". O BuboGPT pode ouvir detalhes que os humanos não conseguem perceber:

Audio-1-chime-bird-breeze, qubit, 20 segundos

Alta energia à frente!

Compreensão conjunta trimodal, descrição do texto + posicionamento da imagem + posicionamento do som, um clique para obtê-lo e determinar com precisão a fonte do som:

Áudio-7-dork-bark, qubit, 6 segundos

Não se preocupe, ainda não acabou!

Mesmo que não haja relação direta entre áudio e imagens, a possível relação entre os dois pode ser razoavelmente descrita. Também é possível contar histórias olhando para fotos e identificando sons:

Áudio-11-seis-horas, qubit, 1 minuto

Olhando desta forma, o BuboGPT faz algum trabalho, o que é "bom" o suficiente.

Segundo os pesquisadores:

Modelos grandes multimodais recentemente populares, como MiniGPT-4, LLaVA e X-LLM, não fazem conexões básicas com partes específicas da entrada, mas apenas constroem mapas de baixa granularidade. Embora o BuboGPT aproveite as informações ricas e a correspondência clara entre o texto e outras modalidades, ele pode fornecer uma compreensão refinada dos objetos visuais e de uma determinada modalidade.

Portanto, quando o BuboGPT descreve a imagem, ele pode apontar a localização específica do objeto na imagem.

BuboGPT: Apresentando a conectividade visual ao LLM pela primeira vez

Além dos exemplos acima compartilhados pelo autor no YouTube, a equipe de pesquisa também demonstrou vários truques do BuboGPT no artigo.

Muito tempo para ver um sapo tocando piano! Esse gráfico BuboGPT também pode descrever com precisão?

Como Kangkang respondeu juntos:

Você não apenas pode descrever com precisão a pose do sapo, mas também sabe que é um banjo?

Pergunte quais são os lugares interessantes na imagem, e também pode resumir tudo no fundo da imagem.

BuboGPT "teste de visão + audição + expressividade", os pesquisadores jogam assim, vamos ouvir este áudio primeiro.

Audio-9-hair-dryer, qubit, 5 segundos

Vamos dar uma olhada na descrição do BuboGPT:

O BuboGPT pode entender com precisão o gênero da pessoa na foto, a fonte do som e o que aconteceu na foto.

O efeito é tão bom porque a Byte usou o método de introdução de posicionamento visual no LLM desta vez.

O método específico, então, olhamos para baixo.

A arquitetura do BuboGPT é alcançar a compreensão multimodal aprendendo um espaço semântico compartilhado e explorando ainda mais as relações refinadas entre diferentes objetos visuais e diferentes modalidades.

Para explorar a relação refinada entre diferentes objetos visuais e várias modalidades, os pesquisadores primeiro construíram um pipeline de localização visual pronto com base no SAM.

Este pipeline consiste em três módulos: Módulo de marcação (Módulo de marcação), Módulo de localização (Módulo de aterramento) e Módulo de correspondência de entidade (Módulo de correspondência de entidade).

O processo é mais ou menos assim:

Primeiro, o módulo de rotulagem é um modelo pré-treinado que pode gerar vários rótulos de texto associados a uma imagem de entrada.

O módulo de localização baseado em SAM localiza ainda mais a máscara semântica ou a caixa delimitadora associada a cada rótulo de texto na imagem.

Em seguida, o módulo de correspondência de entidades utiliza a capacidade de raciocínio do LLM para recuperar entidades correspondentes de rótulos e descrições de imagens.

É assim que os pesquisadores usam a linguagem como uma ponte para conectar objetos visuais a outras modalidades.

Para que a entrada de qualquer combinação dos três modos tenha bons resultados, os pesquisadores adotaram um esquema de treinamento em duas etapas semelhante ao Mini-GTP4:

Pré-treinamento de modalidade única e ajuste de instrução multimodal.

Especificamente, BuboGPT usa ImageBind como codificador de áudio, BLIP-2 como codificador visual e Vicuna como LLM pré-treinado.

No estágio de pré-treinamento unimodal, a modalidade Q-Former correspondente e as camadas de projeção linear são treinadas em uma grande quantidade de dados emparelhados de texto de modalidade.

Para a percepção visual, treinamos apenas a camada de projeção para a parte de geração da legenda da imagem e mantemos o Q-Former do BLIP2 fixo.

Para a compreensão do áudio, eles treinaram as partes do Q-Former e da geração de legendas de áudio.

Em ambas as configurações sem usar nenhuma dica ( ), o modelo apenas recebe a imagem ou áudio correspondente como entrada e prevê a legenda correspondente (caption).

** **###### Diferentes instruções de entrada seguem o exemplo

No estágio de ajuste de instrução multimodal, um conjunto de dados de instrução multimodal de alta qualidade é construído para ajustar a camada de projeção linear, incluindo:

  • Imagem-Texto: Ajuste de instrução visual usando dois conjuntos de dados em MiniGPT-4 e LLaVa.
  • Áudio-Texto: Uma série de dados expressivos e descritivos é construída com base no conjunto de dados Clotho.
  • Áudio-imagem-texto: Com base no conjunto de dados VGGSS, um par de dados de ajuste de orientação trimodal <áudio, imagem, texto> é construído e amostras negativas são introduzidas para aprimorar o modelo.

Vale a pena notar que, ao introduzir amostras negativas "pares imagem-áudio" para correspondência semântica, o BuboGPT pode ser melhor alinhado e a capacidade de compreensão conjunta multimodal é mais forte.

No momento, o código BuboGPT e o conjunto de dados são de código aberto e a demonstração também foi lançada. Vamos experimentá-lo rapidamente.

experiência de jogo superficial de demonstração

A área de funções da página de demonstração do BuboGPT é clara à primeira vista e a operação também é muito simples. Você pode fazer upload de fotos ou áudio no lado direito e a janela de resposta do BuboGPT e a janela de perguntas do usuário no lado esquerdo:

Depois de carregar a foto, clique no primeiro botão abaixo para carregar a imagem dividida:

Tire uma foto da Grande Muralha como exemplo, o BuboGPT desmontou assim e identificou montanhas, atrações turísticas e muralhas da cidade:

Quando pedimos para descrever esta imagem, sua resposta foi mais específica e basicamente precisa:

Você pode ver que o conteúdo da caixa de divisão também mudou, correspondendo ao conteúdo do texto da resposta.

Aqui está outra foto, com um trecho de áudio, e o BuboGPT também corresponde corretamente à fonte de som:

Audio-8-bicycle_bell, qubit, 22 segundos

Claro, ele também falhará em reconhecer e expressar incorretamente. Por exemplo, não há ninguém na foto abaixo e o áudio é apenas uma campainha, mas sua descrição parece não corresponder à imagem.

Membros da família interessados se apressem e experimentem por si mesmos~~

Portal: [1] [2]

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)