Fonte da imagem: gerada pela ferramenta Unbounded AI
Os modelos de linguagem são capazes de gerar textos coerentes e contextuais, revolucionando a forma como nos comunicamos com os computadores. Modelos de linguagem em larga escala (LLMs) têm estado na vanguarda deste avanço, aprendendo os padrões e nuances da linguagem humana através do treinamento em grandes quantidades de dados textuais. Como pioneiro da revolução LLM, o ChatGPT é extremamente popular entre pessoas de diferentes disciplinas.
Os vastos recursos do LLM tornam várias tarefas mais fáceis de realizar. Nós os usamos para resumir textos, redigir e-mails, automatizar tarefas de programação, interpretar documentos e muito mais. Todas essas tarefas, que eram demoradas há um ano, agora podem ser concluídas em apenas alguns minutos.
No entanto, com a crescente necessidade de compreensão multimodal, onde os modelos precisam processar e gerar conteúdo de diferentes modalidades, como texto, imagens e até vídeos, há uma necessidade de modelos multimodais de grandes linguagens (MLLMs). O MLLM combina o poder dos modelos de linguagem com a compreensão visual, permitindo que as máquinas compreendam e gerem conteúdo de uma maneira mais abrangente e consciente do contexto.
Depois que a mania do ChatGPT diminuiu um pouco, os MLLMs invadiram o campo da inteligência artificial, permitindo que as máquinas entendessem e gerassem conteúdo em diferentes modos, como texto e imagens. Esses modelos funcionam bem em tarefas como reconhecimento de imagem, fundamentos de visão e compreensão de instruções. No entanto, como treinar eficientemente esses modelos continua sendo um desafio. O maior desafio é que quando o MLLM encontra uma cena completamente desconhecida, tanto as imagens quanto os rótulos são desconhecidos.
Além disso, os MLLMs tendem a “se perder” ao processar contextos mais longos. Esses modelos dependem fortemente das posições inicial e intermediária, razão pela qual a precisão estabiliza (pausas temporárias ou declínios no processo de aprendizagem ou formação de habilidades) à medida que o número de amostras aumenta. Portanto, o MLLM luta com entradas mais longas.
Agora, vamos nos familiarizar com o aprendizado de contexto de link (LCL) para resolver vários desafios no MLLM.
Proposta de diálogo de demonstração de aprendizagem de contexto de link; Fonte:
No MLLM, existem duas estratégias principais de treinamento. Ajuste de prompt multimodal (M-PT) e ajuste de instrução multimodal (M-IT). O M-PT ajusta apenas uma pequena parte dos parâmetros do modelo, deixando o restante inalterado. Essa abordagem ajuda a obter resultados semelhantes ao ajuste fino em grande escala, ao mesmo tempo que minimiza os recursos computacionais. Por outro lado, o M-IT aprimora a capacidade de disparo zero do MLLM, ajustando o MLLM em conjuntos de dados contendo descrições de instruções. Esta estratégia melhora a capacidade do modelo de compreender e responder a novas tarefas sem treinamento prévio. Todos esses métodos são eficazes, mas todos envolvem sacrifícios.
Diferença entre aprendizagem contextual e aprendizagem contextual vinculada. Fonte: https://arxiv.org/abs/2308.07891
LCL explora diferentes estratégias de treinamento: estratégia híbrida, estratégia bidirecional, estratégia aleatória bidirecional e estratégia ponderada bidirecional. A característica marcante da estratégia híbrida é que ela pode melhorar significativamente a precisão de zero amostras e alcançar resultados impressionantes quando o número de amostras chega a 6. Porém, quando o número de amostras é 16, seu desempenho diminui ligeiramente. Em contraste, a precisão da estratégia bidirecional aumenta gradualmente de 2 amostras para 16 amostras, indicando que está mais próxima do modo de treinamento.
Diferente da aprendizagem contextual tradicional, o LCL vai um passo além ao dotar o modelo da capacidade de estabelecer um mapeamento entre origem e destino, melhorando assim o seu desempenho geral. Ao fornecer demonstrações com ligações causais, o LCL permite que os MLLMs reconheçam não apenas analogias, mas também potenciais ligações causais entre pontos de dados, permitindo-lhes identificar de forma mais eficaz imagens não vistas e compreender novos conceitos.
Além disso, o LCL também apresenta o conjunto de dados ISEKAI, um conjunto de dados novo e abrangente projetado especificamente para avaliar as capacidades do MLLM. O conjunto de dados ISEKAI consiste em imagens totalmente geradas e conceitos fabricados. Ele desafia o MLLM a absorver novos conceitos de conversas em andamento e reter esse conhecimento para responder às perguntas com precisão.
Em resumo, o LCL fornece informações valiosas sobre as estratégias de treinamento empregadas para modelos de linguagem multimodais. Estratégias híbridas e estratégias bidirecionais oferecem diferentes maneiras de melhorar o desempenho de modelos de linguagem multimodais, cada uma com suas próprias vantagens e limitações. A análise contextual esclarece os desafios enfrentados pelos modelos de linguagem multimodais ao processar entradas mais longas e também destaca a importância de mais pesquisas nesta área.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Compreendendo LCL em um artigo: A capacidade de aprendizagem de grandes modelos multimodais pode ser aprimorada por meio de "raciocínio causal"
Nome: Ekrem Chetinkaya
Fonte: MarkTechPost
Os modelos de linguagem são capazes de gerar textos coerentes e contextuais, revolucionando a forma como nos comunicamos com os computadores. Modelos de linguagem em larga escala (LLMs) têm estado na vanguarda deste avanço, aprendendo os padrões e nuances da linguagem humana através do treinamento em grandes quantidades de dados textuais. Como pioneiro da revolução LLM, o ChatGPT é extremamente popular entre pessoas de diferentes disciplinas.
Os vastos recursos do LLM tornam várias tarefas mais fáceis de realizar. Nós os usamos para resumir textos, redigir e-mails, automatizar tarefas de programação, interpretar documentos e muito mais. Todas essas tarefas, que eram demoradas há um ano, agora podem ser concluídas em apenas alguns minutos.
No entanto, com a crescente necessidade de compreensão multimodal, onde os modelos precisam processar e gerar conteúdo de diferentes modalidades, como texto, imagens e até vídeos, há uma necessidade de modelos multimodais de grandes linguagens (MLLMs). O MLLM combina o poder dos modelos de linguagem com a compreensão visual, permitindo que as máquinas compreendam e gerem conteúdo de uma maneira mais abrangente e consciente do contexto.
Depois que a mania do ChatGPT diminuiu um pouco, os MLLMs invadiram o campo da inteligência artificial, permitindo que as máquinas entendessem e gerassem conteúdo em diferentes modos, como texto e imagens. Esses modelos funcionam bem em tarefas como reconhecimento de imagem, fundamentos de visão e compreensão de instruções. No entanto, como treinar eficientemente esses modelos continua sendo um desafio. O maior desafio é que quando o MLLM encontra uma cena completamente desconhecida, tanto as imagens quanto os rótulos são desconhecidos.
Além disso, os MLLMs tendem a “se perder” ao processar contextos mais longos. Esses modelos dependem fortemente das posições inicial e intermediária, razão pela qual a precisão estabiliza (pausas temporárias ou declínios no processo de aprendizagem ou formação de habilidades) à medida que o número de amostras aumenta. Portanto, o MLLM luta com entradas mais longas.
Agora, vamos nos familiarizar com o aprendizado de contexto de link (LCL) para resolver vários desafios no MLLM.
No MLLM, existem duas estratégias principais de treinamento. Ajuste de prompt multimodal (M-PT) e ajuste de instrução multimodal (M-IT). O M-PT ajusta apenas uma pequena parte dos parâmetros do modelo, deixando o restante inalterado. Essa abordagem ajuda a obter resultados semelhantes ao ajuste fino em grande escala, ao mesmo tempo que minimiza os recursos computacionais. Por outro lado, o M-IT aprimora a capacidade de disparo zero do MLLM, ajustando o MLLM em conjuntos de dados contendo descrições de instruções. Esta estratégia melhora a capacidade do modelo de compreender e responder a novas tarefas sem treinamento prévio. Todos esses métodos são eficazes, mas todos envolvem sacrifícios.
LCL explora diferentes estratégias de treinamento: estratégia híbrida, estratégia bidirecional, estratégia aleatória bidirecional e estratégia ponderada bidirecional. A característica marcante da estratégia híbrida é que ela pode melhorar significativamente a precisão de zero amostras e alcançar resultados impressionantes quando o número de amostras chega a 6. Porém, quando o número de amostras é 16, seu desempenho diminui ligeiramente. Em contraste, a precisão da estratégia bidirecional aumenta gradualmente de 2 amostras para 16 amostras, indicando que está mais próxima do modo de treinamento.
Diferente da aprendizagem contextual tradicional, o LCL vai um passo além ao dotar o modelo da capacidade de estabelecer um mapeamento entre origem e destino, melhorando assim o seu desempenho geral. Ao fornecer demonstrações com ligações causais, o LCL permite que os MLLMs reconheçam não apenas analogias, mas também potenciais ligações causais entre pontos de dados, permitindo-lhes identificar de forma mais eficaz imagens não vistas e compreender novos conceitos.
Além disso, o LCL também apresenta o conjunto de dados ISEKAI, um conjunto de dados novo e abrangente projetado especificamente para avaliar as capacidades do MLLM. O conjunto de dados ISEKAI consiste em imagens totalmente geradas e conceitos fabricados. Ele desafia o MLLM a absorver novos conceitos de conversas em andamento e reter esse conhecimento para responder às perguntas com precisão.
Em resumo, o LCL fornece informações valiosas sobre as estratégias de treinamento empregadas para modelos de linguagem multimodais. Estratégias híbridas e estratégias bidirecionais oferecem diferentes maneiras de melhorar o desempenho de modelos de linguagem multimodais, cada uma com suas próprias vantagens e limitações. A análise contextual esclarece os desafios enfrentados pelos modelos de linguagem multimodais ao processar entradas mais longas e também destaca a importância de mais pesquisas nesta área.