GPT-4V frontalement résistant ! Les anciens élèves de l'Université du Zhejiang peuvent former un grand modèle multimodal open source LLaVA-1.5, 13 milliards de paramètres et 8 A100 en une journée.
Fin septembre, OpenAI a annoncé la levée de l’interdiction des capacités multimodales de ChatGPT. Les capacités magiques du GPT-4V multimodal ont fait s'exclamer tout le monde : s'agit-il de GPT-4.5 ?
Peu de temps après, le concurrent open source de GPT-4V, LLaVA-1.5, était déjà là !
En avril, des chercheurs de l’Université du Wisconsin-Madison, de Microsoft Research et de l’Université de Columbia ont ouvert un nouveau grand modèle LLaVA multimodal de bout en bout.
Désormais, le LLaVA-1.5 amélioré atteint non seulement le SOTA sur 11 tests de référence, mais peut même rivaliser directement avec le GPT-4V.
Les chercheurs ont considérablement amélioré les performances de LLaVA-1.5 en utilisant CLIP-ViT-L-336px avec le mappage MLP et en ajoutant des données VQA orientées tâches académiques avec des invites de format de réponse simples.
Les résultats montrent que LLaVA-1.5, qui a une architecture plus simple, ne nécessite que 1,2 million de données publiques, ce qui peut surpasser Qwen-VL qui utilise 1,45 milliard de données d'entraînement et HuggingFace IDEFICS (un modèle 80B similaire à Flamingo) qui utilise 130 millions de données.
Parmi eux, la formation du modèle 13B peut être complétée en 1 journée avec seulement 8 A100.
Barre dure LLaVA-1.5 GPT-4V
On dit qu'il est capable de rivaliser avec le GPT-4V, mais quelle est la force du LLaVA-1.5 ?
Laissons GPT-4V, LLaVA et LLaVA-1.5 pk.
adresse du projet :
Question : « S'il y a des erreurs factuelles, veuillez les signaler. Sinon, dites-moi, que se passe-t-il dans le désert ?
La réponse de GPT-4V était un peu stupide : "Désolé, je ne peux pas répondre à cette question car il n'y a aucun contexte pour montrer le désert que vous avez mentionné."
LLaVA a répondu à juste titre : "Sur la photo, la ville et la plage forment l'horizon de la ville, et les gens profitent du coucher de soleil. Cette scène de plage se déroule en fait dans le désert, ce qui est assez inhabituel."
Le seul score parfait, LLaVA-1,5, a donné la réponse parfaite : "Il n'y a pas de désert du tout sur la photo, mais il y a des palmiers, des plages, des toits de villes et une grande étendue d'eau."
De plus, LLaVA-1.5 peut également extraire des informations du graphique et répondre dans le format requis, par exemple en les produisant au format JSON.
On peut voir que LLaVA-1.5 a pratiquement terminé la tâche et qu'il existe encore quelques défauts par rapport à GPT-4V.
De même, donnez à LLaVA-1.5 une image pleine de fruits et de légumes, et il pourra convertir l'image en JSON comme GPT-4V.
Analyse visuelle et transformation intelligente des données, c'est aussi simple que cela !
La question suivante n’est pas si simple : que signifie cette image ?
Il s'est avéré qu'il s'agissait d'un croquis simplifié basé sur "Inception" de Nolan. Afin d'augmenter la difficulté, le nom du personnage a été changé en pseudonyme.
LLaVA-1.5 n'a pas été perplexe et a répondu avec assurance : « Ceci est une image du film « Inception ». Elle montre les différents niveaux du monde des rêves, et chaque niveau est représenté par une ligne. Image Écrivez-la sur un morceau de papier et posez le papier sur une table.
Les gourmands se réjouissent ! Que faire si vous voyez une photo alléchante qui vous donne envie de la manger ?
Envoyez-le directement à LLaVA-1.5, et il générera rapidement une recette pour vous.
De plus, LLaVA-1.5 peut reconnaître les codes de vérification sans « jailbreak ».
Il peut également détecter quelle pièce se trouve sur l’image.
Ce qui est particulièrement impressionnant, c’est que LLaVA-1.5 peut également vous indiquer la race du chien sur la photo.
Certains internautes ont utilisé Bing pour générer une image d'un homme portant un manteau d'hiver sur une plage ensoleillée en été et ont demandé à LLaVA 1.5 de signaler les problèmes rencontrés sur l'image.
Son œil perspicace est très perçant——
Il s'agit d'une photo manipulée ou retouchée d'un homme portant une veste debout sur la plage. L'homme ouvrit son manteau et le soleil brillait sur lui.
Le problème avec cette image est qu'il ne s'agit pas d'une véritable scène de plage. L’homme n’était pas réellement debout sur la plage et le soleil ne brillait pas sur lui.
Cette image a été retouchée pour créer l'illusion d'une scène de plage, mais elle ne représente pas vraiment la scène.
Cependant, la capacité de LLaVA-1.5 à écrire du code frontal selon la conception est plus faible.
A en juger par les résultats, sa production est en effet relativement grossière...
8 A100, formation réalisée en une journée
L'architecture du modèle LLaVA connecte un encodeur visuel pré-entraîné (CLIP ViT-L/14) à un modèle de langage à grande échelle (Vicuna).
Les deux modèles sont reliés par une simple matrice de cartographie, chargée d'aligner ou de transformer les caractéristiques visuelles et linguistiques afin qu'elles puissent être manipulées dans un espace unifié.
Sur l’ensemble de données suivant l’instruction multimodale, LLaVA a obtenu de bons résultats, avec un score de 85,1 % par rapport à GPT-4. En matière d'assurance qualité scientifique, la précision de LLaVA a établi un nouveau record, atteignant 92,53 %.
Cette fois, les chercheurs ont établi une base de référence plus puissante et plus pratique basée sur le cadre LLaVA.
Adresse papier :
Les connecteurs multimodaux MLP et la fusion de données liées aux tâches académiques (telles que VQA) apportent de meilleures capacités de compréhension multimodale à LLaVA.
Comparé à InstructBLIP ou Qwen-VL, qui sont des rééchantillonneurs visuels spécialement conçus et entraînés sur des centaines de millions, voire des milliards de données appariées image-texte, LLaVA utilise la conception d'architecture LMM la plus simple, qui ne nécessite que 600 000 images. couche cartographique simple entièrement connectée.
Le modèle final peut être entraîné sur 8 A100 en une journée et a atteint SOTA lors de divers tests de référence.
De plus, Qwen-VL inclut des données internes lors de la formation, mais LLaVA n'a besoin que de données publiques.
Il ne fait aucun doute que ces performances de base améliorées et facilement reproductibles constitueront une référence précieuse pour l’avenir du LMM open source.
Les performances ont été considérablement améliorées et 11 éléments SOTA ont été actualisés
En tant que modèle open source de réglage fin de l'instruction visuelle, LLaVA fonctionne très bien en termes de capacités de raisonnement visuel - dans les tests de référence basés sur l'instruction visuelle réelle suivant des tâches, LLaVA surpasse même les derniers modèles.
Cependant, LLaVA n’a pas obtenu d’aussi bons résultats sur les critères académiques qui nécessitent souvent des réponses courtes, comme des mots. La raison en est que LLaVA n’est pas pré-entraîné sur des données à grande échelle.
Mise à l'échelle du modèle
Premièrement, les chercheurs ont augmenté la résolution de l’image d’entrée afin que LLM puisse clairement « voir » les détails de l’image, et ont ajouté l’ensemble de données GQA comme source supplémentaire de connaissances visuelles. De plus, des données ShareGPT sont également ajoutées pour agrandir le LLM à 13B.
Les résultats de MM-Vet montrent que l'amélioration est la plus significative lorsque le LLM est étendu au 13B, ce qui montre également que la capacité du LLM de base en dialogue visuel est très importante.
Le modèle final après toutes les améliorations, connu sous le nom de LLaVA-1.5, a réalisé des performances impressionnantes, surpassant de loin le LLaVA original.
Mise à l'échelle des résultats pour les données, le modèle et la résolution
Comparaison avec SOTA
Les chercheurs ont ensuite testé LLaVA-1.5 sur une gamme de références académiques VQA et de références proposées spécifiquement pour les LMM qui suivent les instructions.
Les résultats montrent que LLaVA-1.5 utilise non seulement moins de données de pré-formation et de réglage fin des instructions, mais exploite également l'architecture la plus simple, l'informatique académique et les ensembles de données publics pour obtenir les meilleures performances - sur 11 des 12 benchmarks obtenus SOTA.
En outre, l’étude a également révélé que le réglage précis de l’instruction visuelle joue un rôle plus important que la pré-formation dans l’amélioration des capacités LMM.
Cela nous amène également à repenser les avantages des échantillonneurs visuels et la nécessité d’une pré-formation supplémentaire à grande échelle en termes de capacités de suivi d’instructions multimodales.
Comparaison avec les méthodes SOTA sur 12 benchmarks
Conseils sur le format de réponse
Les chercheurs ont découvert que les méthodes précédentes telles que InstructBLIP étaient incapables d'atteindre un équilibre entre l'AQV courte et longue. La raison principale est que——
Premièrement, les invites concernant le format de réponse étaient vagues.
Par exemple, "Q : {Question} A : {Réponse}" n'indique pas clairement le format de sortie idéal. Même un dialogue visuel naturel peut entraîner un surajustement de LLM aux réponses au format court.
Deuxièmement, le LLM n’était pas affiné.
Par exemple, InstructBLIP affine uniquement les instructions pour Qformer. Bien qu'il soit possible d'utiliser le jeton de sortie visuelle de Qformer pour contrôler la longueur de la sortie LLM, Qformer a une capacité relativement limitée par rapport aux LLM tels que LLaMA, il se peut donc qu'il ne soit pas en mesure de le faire correctement.
Pour résoudre ce problème, les chercheurs ont suggéré d'ajouter un indice à la fin de la question VQA qui clarifierait le format de sortie, permettant ainsi au modèle de générer des réponses courtes. Par exemple : « Répondez à la question avec un mot ou une phrase. »
Lorsque LLM utilise cette astuce pour un réglage fin, LLaVA est capable d'affiner correctement le format de sortie selon les instructions de l'utilisateur et ne nécessite pas de traitement supplémentaire des données VQA à l'aide de ChatGPT.
Les résultats montrent qu'en ajoutant simplement VQAv2 à l'entraînement, les performances de LLaVA sur MME sont considérablement améliorées (1323,8 contre 502,8), soit 111 points de plus que InstructBLIP !
### Données pour les tâches académiques
Les chercheurs ont en outre ajouté des ensembles de données VQA pour les tâches académiques pour le VQA, l'OCR et la perception au niveau régional afin d'améliorer les capacités du modèle sous différents aspects.
Ils ont d’abord inclus quatre ensembles de données supplémentaires utilisés par InstructBLIP : Open Knowledge VQA.
Parmi eux, A-OKVQA est converti en un format de question à choix multiples et utilise une invite de format de réponse spécifique : répondez directement avec les lettres dans les options proposées.
En utilisant uniquement un sous-ensemble de l'ensemble de données utilisé par InstructBLIP, LLaVA a surpassé InstructBLIP dans les trois tâches du tableau 1, ce qui montre que la conception de LLaVA est très efficace.
En outre, les chercheurs ont découvert que la capacité du modèle à localiser des détails visuels fins pourrait être améliorée en ajoutant davantage d'ensembles de données VQA au niveau régional.
Généralisation des instructions au format Zero-shot
Bien que LLaVA-1.5 n'utilise que des instructions de format limité pour la formation, il peut se généraliser à d'autres instructions de format.
Par exemple, VizWiz exige que le modèle affiche « sans réponse » lorsque le contenu fourni n'est pas suffisant pour répondre à la question, et les invites de format de réponse de LLaVA peuvent effectivement demander au modèle de le faire (les questions sans réponse représentent 11,1 % → 67,8 %).
### Capacité multilingue Zero-shot
Dans le même temps, LLaVA-1.5 n’est pas optimisé pour les instructions multilingues. Cependant, comme ShareGPT contient une grande quantité de données pertinentes, il peut toujours implémenter le suivi de commandes multimodal dans plusieurs langues.
Les chercheurs ont évalué quantitativement la capacité de généralisation du modèle au chinois sur MMBenchCN, où les questions de MMBench ont été converties en chinois.
Il convient de noter que LLaVA-1.5 est 7,3 % plus précis que Qwen-VL-Chat (63,6 % contre 56,7 %). Parmi eux, Qwen a peaufiné les instructions multimodales chinoises, contrairement à LLaVA-1.5.
Coûts informatiques
Pour LLaVA-1.5, les chercheurs ont utilisé le même ensemble de données de pré-entraînement que le LCS-558K et ont conservé à peu près le même nombre d'itérations de formation et de tailles de lots d'instructions de réglage fin que LLaVA.
Étant donné que la résolution d'entrée de l'image est augmentée à 336 pixels, le temps de formation de LLaVA-1.5 est 2 fois supérieur à celui de LLaVA : 6 heures de pré-formation et 20 heures de réglage précis de l'instruction visuelle à l'aide de 8 A100.
Limitations
Même si LLaVA-1.5 a obtenu de très bons résultats, il faut admettre qu'il présente encore certaines limites.
Premièrement, LLaVA utilise des correctifs d'image complets, ce qui peut prolonger la durée de chaque itération de formation.
Deuxièmement, LLaVA-1.5 n'est pas encore capable de gérer plusieurs images en raison du manque d'instructions pour suivre les données et de la limitation de la longueur du contexte.
Troisièmement, bien que LLaVA-1.5 puisse suivre des instructions complexes avec compétence, ses capacités de résolution de problèmes seront encore limitées dans certains domaines, qui peuvent être améliorées par des modèles de langage plus puissants et par un réglage fin des données avec des instructions visuelles ciblées de haute qualité.
Enfin, LLaVA-1.5 est inévitablement sujet aux hallucinations et à la désinformation et doit donc être utilisé avec prudence dans des applications critiques telles que la médecine.
A propos de l'auteur
Haotian Liu
Haotian Liu est doctorant en informatique à l'Université du Wisconsin-Madison sous la direction du professeur Yong Jae Lee. Auparavant, il a obtenu une licence de l'Université du Zhejiang.
Ses intérêts de recherche portent sur la vision par ordinateur et l’apprentissage automatique, en particulier sur les algorithmes efficaces pour la perception et la compréhension visuelles. Des recherches récentes se sont concentrées sur la création de grands modèles personnalisables basés sur des intentions humaines.
Chunyuan Li
Chunyuan Li est chercheur principal chez Microsoft Research Redmond.
Auparavant, il a obtenu un doctorat en apprentissage automatique de l'Université Duke, où son superviseur était le professeur Lawrence Carin. Il a été président de terrain de NeurIPS, ICML, ICLR, EMNLP et AAAI, ainsi que rédacteur invité de l'IJCV.
Ses recherches récentes portent sur la préformation à grande échelle en vision par ordinateur et en traitement du langage naturel. Par exemple, la construction de modèles multimodaux à grande échelle qui suivent les intentions humaines, la pré-formation visuelle et linguistique et les modèles génératifs profonds à grande échelle.
Yuheng Li
Yuheng Li est doctorant en informatique à l'Université du Wisconsin-Madison, supervisé par le professeur Yong Jae Lee. Auparavant, il a obtenu son baccalauréat de l'Université des sciences et technologies de Huazhong.
Ses intérêts de recherche portent sur la génération et le traitement d'images multimodales contrôlables, ainsi que sur d'autres problèmes liés à la vision créative.
Les références:
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
GPT-4V frontalement résistant ! Les anciens élèves de l'Université du Zhejiang peuvent former un grand modèle multimodal open source LLaVA-1.5, 13 milliards de paramètres et 8 A100 en une journée.
Source originale : Xinzhiyuan
Fin septembre, OpenAI a annoncé la levée de l’interdiction des capacités multimodales de ChatGPT. Les capacités magiques du GPT-4V multimodal ont fait s'exclamer tout le monde : s'agit-il de GPT-4.5 ?
Peu de temps après, le concurrent open source de GPT-4V, LLaVA-1.5, était déjà là !
En avril, des chercheurs de l’Université du Wisconsin-Madison, de Microsoft Research et de l’Université de Columbia ont ouvert un nouveau grand modèle LLaVA multimodal de bout en bout.
Désormais, le LLaVA-1.5 amélioré atteint non seulement le SOTA sur 11 tests de référence, mais peut même rivaliser directement avec le GPT-4V.
Les résultats montrent que LLaVA-1.5, qui a une architecture plus simple, ne nécessite que 1,2 million de données publiques, ce qui peut surpasser Qwen-VL qui utilise 1,45 milliard de données d'entraînement et HuggingFace IDEFICS (un modèle 80B similaire à Flamingo) qui utilise 130 millions de données.
Parmi eux, la formation du modèle 13B peut être complétée en 1 journée avec seulement 8 A100.
On dit qu'il est capable de rivaliser avec le GPT-4V, mais quelle est la force du LLaVA-1.5 ?
Laissons GPT-4V, LLaVA et LLaVA-1.5 pk.
Question : « S'il y a des erreurs factuelles, veuillez les signaler. Sinon, dites-moi, que se passe-t-il dans le désert ?
LLaVA a répondu à juste titre : "Sur la photo, la ville et la plage forment l'horizon de la ville, et les gens profitent du coucher de soleil. Cette scène de plage se déroule en fait dans le désert, ce qui est assez inhabituel."
Le seul score parfait, LLaVA-1,5, a donné la réponse parfaite : "Il n'y a pas de désert du tout sur la photo, mais il y a des palmiers, des plages, des toits de villes et une grande étendue d'eau."
De plus, LLaVA-1.5 peut également extraire des informations du graphique et répondre dans le format requis, par exemple en les produisant au format JSON.
De même, donnez à LLaVA-1.5 une image pleine de fruits et de légumes, et il pourra convertir l'image en JSON comme GPT-4V.
La question suivante n’est pas si simple : que signifie cette image ?
LLaVA-1.5 n'a pas été perplexe et a répondu avec assurance : « Ceci est une image du film « Inception ». Elle montre les différents niveaux du monde des rêves, et chaque niveau est représenté par une ligne. Image Écrivez-la sur un morceau de papier et posez le papier sur une table.
Envoyez-le directement à LLaVA-1.5, et il générera rapidement une recette pour vous.
Son œil perspicace est très perçant——
L'architecture du modèle LLaVA connecte un encodeur visuel pré-entraîné (CLIP ViT-L/14) à un modèle de langage à grande échelle (Vicuna).
Sur l’ensemble de données suivant l’instruction multimodale, LLaVA a obtenu de bons résultats, avec un score de 85,1 % par rapport à GPT-4. En matière d'assurance qualité scientifique, la précision de LLaVA a établi un nouveau record, atteignant 92,53 %.
Cette fois, les chercheurs ont établi une base de référence plus puissante et plus pratique basée sur le cadre LLaVA.
Les connecteurs multimodaux MLP et la fusion de données liées aux tâches académiques (telles que VQA) apportent de meilleures capacités de compréhension multimodale à LLaVA.
Comparé à InstructBLIP ou Qwen-VL, qui sont des rééchantillonneurs visuels spécialement conçus et entraînés sur des centaines de millions, voire des milliards de données appariées image-texte, LLaVA utilise la conception d'architecture LMM la plus simple, qui ne nécessite que 600 000 images. couche cartographique simple entièrement connectée.
Le modèle final peut être entraîné sur 8 A100 en une journée et a atteint SOTA lors de divers tests de référence.
Il ne fait aucun doute que ces performances de base améliorées et facilement reproductibles constitueront une référence précieuse pour l’avenir du LMM open source.
Les performances ont été considérablement améliorées et 11 éléments SOTA ont été actualisés
En tant que modèle open source de réglage fin de l'instruction visuelle, LLaVA fonctionne très bien en termes de capacités de raisonnement visuel - dans les tests de référence basés sur l'instruction visuelle réelle suivant des tâches, LLaVA surpasse même les derniers modèles.
Cependant, LLaVA n’a pas obtenu d’aussi bons résultats sur les critères académiques qui nécessitent souvent des réponses courtes, comme des mots. La raison en est que LLaVA n’est pas pré-entraîné sur des données à grande échelle.
Mise à l'échelle du modèle
Premièrement, les chercheurs ont augmenté la résolution de l’image d’entrée afin que LLM puisse clairement « voir » les détails de l’image, et ont ajouté l’ensemble de données GQA comme source supplémentaire de connaissances visuelles. De plus, des données ShareGPT sont également ajoutées pour agrandir le LLM à 13B.
Les résultats de MM-Vet montrent que l'amélioration est la plus significative lorsque le LLM est étendu au 13B, ce qui montre également que la capacité du LLM de base en dialogue visuel est très importante.
Le modèle final après toutes les améliorations, connu sous le nom de LLaVA-1.5, a réalisé des performances impressionnantes, surpassant de loin le LLaVA original.
Comparaison avec SOTA
Les chercheurs ont ensuite testé LLaVA-1.5 sur une gamme de références académiques VQA et de références proposées spécifiquement pour les LMM qui suivent les instructions.
Les résultats montrent que LLaVA-1.5 utilise non seulement moins de données de pré-formation et de réglage fin des instructions, mais exploite également l'architecture la plus simple, l'informatique académique et les ensembles de données publics pour obtenir les meilleures performances - sur 11 des 12 benchmarks obtenus SOTA.
En outre, l’étude a également révélé que le réglage précis de l’instruction visuelle joue un rôle plus important que la pré-formation dans l’amélioration des capacités LMM.
Cela nous amène également à repenser les avantages des échantillonneurs visuels et la nécessité d’une pré-formation supplémentaire à grande échelle en termes de capacités de suivi d’instructions multimodales.
Conseils sur le format de réponse
Les chercheurs ont découvert que les méthodes précédentes telles que InstructBLIP étaient incapables d'atteindre un équilibre entre l'AQV courte et longue. La raison principale est que——
Premièrement, les invites concernant le format de réponse étaient vagues.
Par exemple, "Q : {Question} A : {Réponse}" n'indique pas clairement le format de sortie idéal. Même un dialogue visuel naturel peut entraîner un surajustement de LLM aux réponses au format court.
Deuxièmement, le LLM n’était pas affiné.
Par exemple, InstructBLIP affine uniquement les instructions pour Qformer. Bien qu'il soit possible d'utiliser le jeton de sortie visuelle de Qformer pour contrôler la longueur de la sortie LLM, Qformer a une capacité relativement limitée par rapport aux LLM tels que LLaMA, il se peut donc qu'il ne soit pas en mesure de le faire correctement.
Pour résoudre ce problème, les chercheurs ont suggéré d'ajouter un indice à la fin de la question VQA qui clarifierait le format de sortie, permettant ainsi au modèle de générer des réponses courtes. Par exemple : « Répondez à la question avec un mot ou une phrase. »
Lorsque LLM utilise cette astuce pour un réglage fin, LLaVA est capable d'affiner correctement le format de sortie selon les instructions de l'utilisateur et ne nécessite pas de traitement supplémentaire des données VQA à l'aide de ChatGPT.
Les résultats montrent qu'en ajoutant simplement VQAv2 à l'entraînement, les performances de LLaVA sur MME sont considérablement améliorées (1323,8 contre 502,8), soit 111 points de plus que InstructBLIP !
Les chercheurs ont en outre ajouté des ensembles de données VQA pour les tâches académiques pour le VQA, l'OCR et la perception au niveau régional afin d'améliorer les capacités du modèle sous différents aspects.
Ils ont d’abord inclus quatre ensembles de données supplémentaires utilisés par InstructBLIP : Open Knowledge VQA.
Parmi eux, A-OKVQA est converti en un format de question à choix multiples et utilise une invite de format de réponse spécifique : répondez directement avec les lettres dans les options proposées.
En utilisant uniquement un sous-ensemble de l'ensemble de données utilisé par InstructBLIP, LLaVA a surpassé InstructBLIP dans les trois tâches du tableau 1, ce qui montre que la conception de LLaVA est très efficace.
En outre, les chercheurs ont découvert que la capacité du modèle à localiser des détails visuels fins pourrait être améliorée en ajoutant davantage d'ensembles de données VQA au niveau régional.
Généralisation des instructions au format Zero-shot
Bien que LLaVA-1.5 n'utilise que des instructions de format limité pour la formation, il peut se généraliser à d'autres instructions de format.
Par exemple, VizWiz exige que le modèle affiche « sans réponse » lorsque le contenu fourni n'est pas suffisant pour répondre à la question, et les invites de format de réponse de LLaVA peuvent effectivement demander au modèle de le faire (les questions sans réponse représentent 11,1 % → 67,8 %).
Dans le même temps, LLaVA-1.5 n’est pas optimisé pour les instructions multilingues. Cependant, comme ShareGPT contient une grande quantité de données pertinentes, il peut toujours implémenter le suivi de commandes multimodal dans plusieurs langues.
Les chercheurs ont évalué quantitativement la capacité de généralisation du modèle au chinois sur MMBenchCN, où les questions de MMBench ont été converties en chinois.
Il convient de noter que LLaVA-1.5 est 7,3 % plus précis que Qwen-VL-Chat (63,6 % contre 56,7 %). Parmi eux, Qwen a peaufiné les instructions multimodales chinoises, contrairement à LLaVA-1.5.
Coûts informatiques
Pour LLaVA-1.5, les chercheurs ont utilisé le même ensemble de données de pré-entraînement que le LCS-558K et ont conservé à peu près le même nombre d'itérations de formation et de tailles de lots d'instructions de réglage fin que LLaVA.
Étant donné que la résolution d'entrée de l'image est augmentée à 336 pixels, le temps de formation de LLaVA-1.5 est 2 fois supérieur à celui de LLaVA : 6 heures de pré-formation et 20 heures de réglage précis de l'instruction visuelle à l'aide de 8 A100.
Limitations
Même si LLaVA-1.5 a obtenu de très bons résultats, il faut admettre qu'il présente encore certaines limites.
Premièrement, LLaVA utilise des correctifs d'image complets, ce qui peut prolonger la durée de chaque itération de formation.
Deuxièmement, LLaVA-1.5 n'est pas encore capable de gérer plusieurs images en raison du manque d'instructions pour suivre les données et de la limitation de la longueur du contexte.
Troisièmement, bien que LLaVA-1.5 puisse suivre des instructions complexes avec compétence, ses capacités de résolution de problèmes seront encore limitées dans certains domaines, qui peuvent être améliorées par des modèles de langage plus puissants et par un réglage fin des données avec des instructions visuelles ciblées de haute qualité.
Enfin, LLaVA-1.5 est inévitablement sujet aux hallucinations et à la désinformation et doit donc être utilisé avec prudence dans des applications critiques telles que la médecine.
A propos de l'auteur
Haotian Liu
Ses intérêts de recherche portent sur la vision par ordinateur et l’apprentissage automatique, en particulier sur les algorithmes efficaces pour la perception et la compréhension visuelles. Des recherches récentes se sont concentrées sur la création de grands modèles personnalisables basés sur des intentions humaines.
Chunyuan Li
Auparavant, il a obtenu un doctorat en apprentissage automatique de l'Université Duke, où son superviseur était le professeur Lawrence Carin. Il a été président de terrain de NeurIPS, ICML, ICLR, EMNLP et AAAI, ainsi que rédacteur invité de l'IJCV.
Ses recherches récentes portent sur la préformation à grande échelle en vision par ordinateur et en traitement du langage naturel. Par exemple, la construction de modèles multimodaux à grande échelle qui suivent les intentions humaines, la pré-formation visuelle et linguistique et les modèles génératifs profonds à grande échelle.
Yuheng Li
Yuheng Li est doctorant en informatique à l'Université du Wisconsin-Madison, supervisé par le professeur Yong Jae Lee. Auparavant, il a obtenu son baccalauréat de l'Université des sciences et technologies de Huazhong.
Ses intérêts de recherche portent sur la génération et le traitement d'images multimodales contrôlables, ainsi que sur d'autres problèmes liés à la vision créative.
Les références: