Source de l'image : générée par l'outil Unbounded AI
Les modèles linguistiques sont capables de générer un texte cohérent et contextuel, révolutionnant ainsi la façon dont nous communiquons avec les ordinateurs. Les grands modèles de langage (LLM) ont été à l'avant-garde de cette avancée, apprenant les modèles et les nuances du langage humain en s'entraînant sur d'énormes quantités de données textuelles. En tant que pionnier de la révolution LLM, ChatGPT est extrêmement populaire parmi les personnes de différentes disciplines.
Les vastes capacités de LLM facilitent la gestion de diverses tâches. Nous les utilisons pour résumer du texte, rédiger des e-mails, automatiser des tâches de programmation, interpréter des documents, etc. Toutes ces tâches, qui prenaient beaucoup de temps il y a un an, peuvent désormais être réalisées en quelques minutes seulement.
Cependant, avec le besoin croissant de compréhension multimodale, les modèles doivent traiter et générer du contenu dans différentes modalités telles que du texte, des images et même des vidéos, d'où le besoin de modèles multimodaux de langage étendu (MLLM). MLLM combine la puissance des modèles de langage avec la compréhension visuelle, permettant aux machines de comprendre et de générer du contenu de manière plus complète et contextuelle.
Lorsque l'engouement pour ChatGPT s'est un peu calmé, les MLLM ont pris d'assaut le domaine de l'intelligence artificielle, permettant aux machines de comprendre et de générer du contenu dans différents modes tels que le texte et les images. Ces modèles excellent dans des tâches telles que la reconnaissance d'images, la compréhension basée sur la vision et les commandes. Cependant, la manière de former efficacement ces modèles reste un défi. Le plus grand défi est que lorsque MLLM rencontre une scène totalement inconnue, les images et les étiquettes sont inconnues.
De plus, les MLLM ont tendance à « se perdre » lors du traitement de contextes plus longs. Ces modèles s'appuient fortement sur les positions de début et intermédiaire, c'est pourquoi la précision stagne (pauses temporaires ou déclins dans le processus d'apprentissage ou de formation de compétences) à mesure que le nombre d'échantillons augmente. Par conséquent, MLLM a du mal avec des entrées plus longues.
Maintenant, introduisons l'apprentissage contextuel lié (LCL) pour résoudre divers problèmes difficiles dans MLLM.
Dialogue de démonstration d'apprentissage lien-contexte proposé ; Source :
Dans MLLM, il existe deux stratégies de formation clés. Réglage des invites multimodales (M-PT) et réglage des instructions multimodales (M-IT). M-PT affine seulement une petite partie des paramètres du modèle, laissant le reste inchangé. Cette approche permet d'obtenir des résultats similaires à ceux d'un réglage fin à grande échelle tout en minimisant les ressources de calcul. D'autre part, M-IT améliore la capacité zéro-shot du MLLM en affinant le MLLM sur des ensembles de données contenant des descriptions d'instructions. Cette stratégie améliore la capacité du modèle à comprendre et à répondre à de nouvelles tâches sans formation préalable. Ces méthodes sont toutes efficaces, mais elles impliquent des sacrifices.
Différence entre l'apprentissage contextuel et l'apprentissage contextuel lié. Source : https://arxiv.org/abs/2308.07891
LCL explore différentes stratégies de formation : stratégie mixte, stratégie bidirectionnelle, stratégie stochastique bidirectionnelle et stratégie pondérée bidirectionnelle. La caractéristique remarquable de la stratégie mixte est qu’elle peut améliorer considérablement la précision du tir zéro et obtenir des résultats impressionnants lorsque le nombre d’échantillons atteint 6. Cependant, à 16 échantillons, ses performances chutent légèrement. En revanche, la précision de la stratégie bidirectionnelle augmente progressivement de 2 échantillons à 16 échantillons, ce qui indique qu'elle se rapproche du mode d'entraînement.
Contrairement à l’apprentissage contextuel traditionnel, LCL va plus loin et donne au modèle la possibilité d’établir une cartographie entre sources et cibles, améliorant ainsi ses performances globales. En fournissant des démonstrations de liens causals, LCL permet à MLLM d'identifier non seulement des analogies mais également des liens causals potentiels entre les points de données, ce qui le rend plus efficace pour identifier des images invisibles et comprendre de nouveaux concepts.
De plus, LCL présente l'ensemble de données ISEKAI, un ensemble de données nouveau et complet dédié à l'évaluation des capacités des MLLM. L'ensemble de données ISEKAI se compose d'images entièrement générées et de concepts fabriqués. Il met les MLLM au défi d'absorber les nouveaux concepts des conversations en cours et de conserver ces connaissances pour répondre avec précision aux questions.
En résumé, LCL fournit des informations précieuses sur les stratégies de formation utilisées pour les modèles de langage multimodaux. Les stratégies hybrides et bidirectionnelles offrent différentes manières d'améliorer les performances des modèles de langage multimodaux, chacune avec ses propres avantages et limites. L'analyse contextuelle met en lumière les défis rencontrés par les modèles de langage multimodaux lors du traitement d'entrées plus longues, et souligne également l'importance de recherches plus approfondies dans ce domaine.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Comprendre LCL dans un article : la capacité d'apprentissage des grands modèles multimodaux peut être améliorée grâce au « raisonnement causal »
Titre : Ekrem Chetinkaya
Source : MarkTechPost
Les modèles linguistiques sont capables de générer un texte cohérent et contextuel, révolutionnant ainsi la façon dont nous communiquons avec les ordinateurs. Les grands modèles de langage (LLM) ont été à l'avant-garde de cette avancée, apprenant les modèles et les nuances du langage humain en s'entraînant sur d'énormes quantités de données textuelles. En tant que pionnier de la révolution LLM, ChatGPT est extrêmement populaire parmi les personnes de différentes disciplines.
Les vastes capacités de LLM facilitent la gestion de diverses tâches. Nous les utilisons pour résumer du texte, rédiger des e-mails, automatiser des tâches de programmation, interpréter des documents, etc. Toutes ces tâches, qui prenaient beaucoup de temps il y a un an, peuvent désormais être réalisées en quelques minutes seulement.
Cependant, avec le besoin croissant de compréhension multimodale, les modèles doivent traiter et générer du contenu dans différentes modalités telles que du texte, des images et même des vidéos, d'où le besoin de modèles multimodaux de langage étendu (MLLM). MLLM combine la puissance des modèles de langage avec la compréhension visuelle, permettant aux machines de comprendre et de générer du contenu de manière plus complète et contextuelle.
Lorsque l'engouement pour ChatGPT s'est un peu calmé, les MLLM ont pris d'assaut le domaine de l'intelligence artificielle, permettant aux machines de comprendre et de générer du contenu dans différents modes tels que le texte et les images. Ces modèles excellent dans des tâches telles que la reconnaissance d'images, la compréhension basée sur la vision et les commandes. Cependant, la manière de former efficacement ces modèles reste un défi. Le plus grand défi est que lorsque MLLM rencontre une scène totalement inconnue, les images et les étiquettes sont inconnues.
De plus, les MLLM ont tendance à « se perdre » lors du traitement de contextes plus longs. Ces modèles s'appuient fortement sur les positions de début et intermédiaire, c'est pourquoi la précision stagne (pauses temporaires ou déclins dans le processus d'apprentissage ou de formation de compétences) à mesure que le nombre d'échantillons augmente. Par conséquent, MLLM a du mal avec des entrées plus longues.
Maintenant, introduisons l'apprentissage contextuel lié (LCL) pour résoudre divers problèmes difficiles dans MLLM.
Dans MLLM, il existe deux stratégies de formation clés. Réglage des invites multimodales (M-PT) et réglage des instructions multimodales (M-IT). M-PT affine seulement une petite partie des paramètres du modèle, laissant le reste inchangé. Cette approche permet d'obtenir des résultats similaires à ceux d'un réglage fin à grande échelle tout en minimisant les ressources de calcul. D'autre part, M-IT améliore la capacité zéro-shot du MLLM en affinant le MLLM sur des ensembles de données contenant des descriptions d'instructions. Cette stratégie améliore la capacité du modèle à comprendre et à répondre à de nouvelles tâches sans formation préalable. Ces méthodes sont toutes efficaces, mais elles impliquent des sacrifices.
LCL explore différentes stratégies de formation : stratégie mixte, stratégie bidirectionnelle, stratégie stochastique bidirectionnelle et stratégie pondérée bidirectionnelle. La caractéristique remarquable de la stratégie mixte est qu’elle peut améliorer considérablement la précision du tir zéro et obtenir des résultats impressionnants lorsque le nombre d’échantillons atteint 6. Cependant, à 16 échantillons, ses performances chutent légèrement. En revanche, la précision de la stratégie bidirectionnelle augmente progressivement de 2 échantillons à 16 échantillons, ce qui indique qu'elle se rapproche du mode d'entraînement.
Contrairement à l’apprentissage contextuel traditionnel, LCL va plus loin et donne au modèle la possibilité d’établir une cartographie entre sources et cibles, améliorant ainsi ses performances globales. En fournissant des démonstrations de liens causals, LCL permet à MLLM d'identifier non seulement des analogies mais également des liens causals potentiels entre les points de données, ce qui le rend plus efficace pour identifier des images invisibles et comprendre de nouveaux concepts.
De plus, LCL présente l'ensemble de données ISEKAI, un ensemble de données nouveau et complet dédié à l'évaluation des capacités des MLLM. L'ensemble de données ISEKAI se compose d'images entièrement générées et de concepts fabriqués. Il met les MLLM au défi d'absorber les nouveaux concepts des conversations en cours et de conserver ces connaissances pour répondre avec précision aux questions.
En résumé, LCL fournit des informations précieuses sur les stratégies de formation utilisées pour les modèles de langage multimodaux. Les stratégies hybrides et bidirectionnelles offrent différentes manières d'améliorer les performances des modèles de langage multimodaux, chacune avec ses propres avantages et limites. L'analyse contextuelle met en lumière les défis rencontrés par les modèles de langage multimodaux lors du traitement d'entrées plus longues, et souligne également l'importance de recherches plus approfondies dans ce domaine.