Après le grand modèle de langage, la vision par ordinateur est-elle le prochain exutoire ?

Question

*Source de l’article : Big Model House**Auteur :Zhao Xiaoman*![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2b333c2d0d-dd1a6f-69ad2a) *Source de l’image : Générée par Unbounded AI*Le mois dernier, Open AI a publié la dernière version de GPT-4V, qui permet aux utilisateurs de demander à GPT-4 d’analyser les dernières capacités des entrées d’images fournies par l’utilisateur, et la nouvelle a attiré l’attention de l’industrie sur le fait que l’intégration d’autres modalités, telles que les entrées d’images, dans les grands modèles de langage (LLM) est considérée comme une frontière clé dans la recherche et le développement de l’IA, et que les LLM multimodaux offrent la possibilité d’étendre l’impact des systèmes de langage pur.Du chatbot d’IA ChatGPT lancé à la fin de l’année dernière à l’actuel GPT-4V, Open AI étend les grands modèles de langage (LLM) avec des compétences multisensorielles (telles que la compréhension visuelle) dans les grands modèles multimodaux (LMM) pour obtenir une intelligence générale plus forte.Peu de temps après la sortie de GPT-4V, Microsoft a publié un guide de l’utilisateur ultra-détaillé de 166 pages pour GPT-4V, des modes de saisie simples à la capacité de langage visuel, en passant par les invites interactives avec les humains, la compréhension de la vidéo temporelle, le raisonnement visuel abstrait et le test de quotient émotionnel du QI, GPT-4V peut non seulement couvrir l’expérience interactive dans la vie quotidienne, mais même réaliser une évaluation diagnostique professionnelle dans l’industrie, la médecine et d’autres domaines.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-abca433d25-dd1a6f-69ad2a) **Source : Microsoft (traduction Web à titre indicatif uniquement)**À l’heure actuelle, la capacité sans précédent du GPT-4V à gérer des entrées multimodales entrelacées arbitraires et la polyvalence de ses fonctions se combinent pour faire du GPT-4V un puissant système généraliste multimodal. De plus, la capacité unique de GPT-4V à comprendre les marqueurs visuels dessinés sur les images d’entrée peut conduire à de nouvelles méthodes d’interaction homme-machine, telles que les indices de référence visuels.Il convient d’affirmer que l’exploration préliminaire de GPT-4V peut stimuler la recherche future sur la prochaine génération de formules de tâches multimodales**, utiliser et améliorer de nouvelles méthodes de LMM pour résoudre des problèmes du monde réel, et mieux comprendre les modèles de base multimodaux, et également devenir une nouvelle exploration de la direction de développement de la vision par ordinateur.  ## **Un grand modèle permet un nouveau développement de la vision par ordinateur**  Peut-être qu’en ce qui concerne les capacités multimodales, beaucoup de gens ne sont pas étrangers, et il existe de nombreux grands modèles en Chine qui ont déjà des capacités multimodales lorsqu’ils sont lancés, et qui peuvent effectuer la reconnaissance et la génération d’images, mais il faut admettre que par rapport au LLM (grand modèle de langage), le développement du LMM (grand modèle multimodal) a encore de nombreuses lacunes à résoudre. **Auparavant, Big Model Home a expérimenté un certain nombre de grands modèles avec des capacités multimodales, en prenant comme exemples le framework d’IA MindSpore « Zidong Taichu » version 2.0 et iFLYTEK Spark, qui doivent être améliorés en termes de capacités d’analyse, de raisonnement et d’expression.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-158366da31-dd1a6f-69ad2a) **Sur la photo : Zidong Taichu**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cd3185c149-dd1a6f-69ad2a) **Sur la photo : iFLYTEK Spark****Il convient de noter qu’en avril de cette année, Meta a proposé le modèle SAM (Segment Anything Model) ** pour tout diviser, SAM est un modèle rapide, qui a entraîné plus d’un milliard de masques sur 11 millions d’images, réalisant une puissante généralisation sans échantillon, certains initiés de l’industrie ont déclaré que SAM a franchi les limites de la segmentation et a grandement favorisé le développement de modèles de base de vision par ordinateur.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3364ba847d-dd1a6f-69ad2a) Source: Meta**SAM lui-même est une segmentation sémantique des images, et le modèle saisit le concept d'« objets » qui peuvent générer des masques pour n’importe quel objet dans n’importe quelle image ou vidéo, même s’il ne l’a pas vu en formation.L’émergence des modèles SAM et GPT-4V permet d’installer de grands modèles de langage sur les « yeux », tout comme Open AI s’est préparé au déploiement de la génération GPT-4V**, y compris Be My Eyes, une organisation qui construit des outils pour les utilisateurs malvoyants, à la veille de la génération de modèles, on peut imaginer que le grand modèle est un « aveugle » parlant, mais après avoir ajouté la vision, les grands modèles avec des capacités multimodales peuvent comprendre des chiffres, des vidéos, etc. La puissance de cette fonction pousse également le développement de l’intelligence artificielle dans une nouvelle direction.  ## **Sous la vague des grands modèles, la route de la vision par ordinateur domestique**  Après avoir utilisé les fonctions d’entrée d’image, de reconnaissance et d’inférence, le grand modèle peut réaliser un épanouissement multi-champs et évoluer vers la « vision par ordinateur GPT ».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-681f3dc975-dd1a6f-69ad2a) **La source : Huawei**Dans le domaine industriel, en appliquant de grands modèles visuels à la détection des défauts et à d’autres étapes importantes pour assurer la qualité du produit dans le processus de fabrication, il est essentiel d’être en mesure de détecter les défauts ou les défauts en temps opportun et de prendre les mesures appropriées pour minimiser les coûts opérationnels et liés à la qualité. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d46ec6fa14-dd1a6f-69ad2a) **La source : SenseTime**En termes de diagnostic d’imagerie médicale, combiné à la connaissance du domaine professionnel des grands modèles cognitifs, après avoir ajouté des capacités visuelles, il peut non seulement analyser diverses images médicales, mais également générer rapidement des rapports de radiologie complets, avec le potentiel d’être un assistant IA pour la génération de rapports de radiologie, actuellement SenseTime a développé un modèle de langage médical chinois « Big Doctor » basé sur les connaissances médicales et les données cliniques, avec la capacité de fournir une conversation multi-scénarios multi-tours telle que des conseils, des consultations, des consultations de santé et des prises de décision.En termes de conduite automatique, les informations d’image obtenues par le grand modèle cognitif pendant la conduite, les objectifs de conduite dynamique, etc., peuvent être combinées pour donner des décisions de conduite et des explications de conduite correspondantes, puis le grand modèle peut les convertir dans le langage de la conduite automatique et interagir avec le système de conduite automatique via Drive pour obtenir une conduite intelligente.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-df9ed5ee74-dd1a6f-69ad2a) **La source : Baidu****Si l’on prend l’exemple de Baidu, lors de la conférence mondiale Baidu 2023 qui vient de se tenir, en termes de conduite intelligente, la pile technologique de conduite autonome a été entièrement reconstruite grâce à de nouvelles technologies telles que Transformer et BEV, et la capacité de perception a été améliorée au fil des générations, accélérant la maturité et la popularisation des solutions de vision pure. **À l’heure actuelle, la solution de conduite intelligente haut de gamme de Baidu Apollo peut être appliquée à la grande vitesse, à la ville, au stationnement et à d’autres scénarios mondiaux, et atteindra une production de masse au quatrième trimestre de cette année, ce qui est également la première solution de vision pure en Chine à atterrir sur les scènes urbaines. Il convient de mentionner que la suppression du lidar permet de réduire le coût de l’ensemble du véhicule et d’améliorer la compétitivité du marché.** Big Model House croit qu’avec la bénédiction de la connaissance générale des grands modèles de langage, la vision par ordinateur a ouvert la voie à un développement plus clair **, depuis le début de la vision par ordinateur s’appuyant sur la mémoire répétitive pour des applications pratiques (telles que la reconnaissance faciale, la reconnaissance d’objets), l’exploration de l’intégration de la vision et du langage est devenue une nouvelle direction des grands modèles et de la vision par ordinateur, du développement indépendant à l’intégration mutuelle, l’intelligence artificielle explore également constamment les capacités sensorielles plus proches des humains, peut mieux capturer les détails et les caractéristiques des images, et la précision des grands modèles a été améliorée. Il peut s’adapter à plus de scènes et de distribution de données, s’appuyer sur la capacité d’écrire et de comprendre le grand modèle, intégrer des capacités visuelles et devenir un avatar plus intelligent.Bien sûr, le développement de la science et de la technologie doit être limité par de nombreux facteurs. Les grands modèles nécessitent plus de ressources de calcul et de temps pour l’entraînement, ce qui peut limiter leur évolutivité et en temps réel, les données d’entraînement énormes doivent être limitées par la puissance de calcul, en particulier les GPU haute performance, la mémoire et le stockage à grande vitesse et la technologie d’entraînement distribuée, ** et le marché mondial actuel des GPU haute performance NVIDIA occupe près de 90% de la part, la Chine veut occuper un terrain élevé dans cette compétition d’IA, promouvoir le développement de haute qualité de la puissance de calcul intelligente chinoise est devenu une priorité absolue. ****En général, les grands modèles présentent de nombreux avantages après l’intégration des capacités visuelles, mais il existe également certaines limitations de développement à ce stade. **Avec le développement continu des ressources d’apprentissage profond et de calcul, nous pouvons nous attendre à l’émergence de grands modèles plus avancés et de technologies connexes pour promouvoir davantage l’application et la percée de la vision par ordinateur dans les tâches d’imagerie haute résolution.