En avril de cette année, plusieurs chercheurs d'une société leader dans l'intelligence artificielle se sont penchés sur une nouvelle technologie : SAM (Segment Anything Model). Les chercheurs ont rapidement signalé cette technologie au chef du département.Cette entreprise a commencé avec la technologie de vision artificielle, et la technologie sur laquelle les chercheurs se sont concentrés était également liée à cela. "Avec l'avènement de SAM, de plus en plus de gens en IA se rendent compte que les gros modèles sont un choc pour eux", a déclaré l'un des chercheurs.
Un mois plus tard, l'entreprise a commencé à allouer des ressources pour développer un grand modèle visuel.
Au cours des trois mois suivants, les principales sociétés d'intelligence artificielle en vision artificielle ont prêté attention au potentiel de cette technologie. Jusqu'à présent, des sociétés d'intelligence artificielle telles que SenseTime et CloudWalk Technology, ainsi que des sociétés de sécurité traditionnelles, ont commencé à investir dans cette nouvelle compétition technologique.
SAM est un modèle de segmentation d'image pour les scènes générales. Il a été lancé par Meta en avril de cette année. Tout comme pour parler à ChatGPT, les humains peuvent utiliser certaines instructions linguistiques pour permettre à SAM de distinguer et de réfléchir indépendamment au contenu de l'image. SAM est considéré comme be ChatGPT est apparu dans le champ de vision.
Les passionnés du monde entier l'utilisent pour dessiner, découper des images et passer un bon moment, mais les chercheurs chinois ont reconnu la puissance du SAM : s'il est utilisé dans la conduite automatique, la surveillance de la sécurité, pour détecter les personnes, les voitures et les routes, il est un grand modèle autonome qui rompt fondamentalement avec le gameplay traditionnel de la vision artificielle.
La segmentation et la reconnaissance des images est une tâche essentielle de la vision artificielle. Dans le passé, chaque tâche de création d'une image segmentée nécessitait d'entraîner un algorithme, d'annoter un lot de données et de permettre à la machine de "voir" divers objets dans l'image en superposant de petits modèles. Le SAM a montré quelques nouveautés : sans créer un petit modèle pour chaque tâche spécifique, la machine peut segmenter de manière autonome n'importe quel objet dans n'importe quelle image, même une scène inconnue et floue, et l'opération est extrêmement simple.
Cela signifie que SAM a des fonctionnalités plus générales, et il est possible d'utiliser cette fonctionnalité générale pour réduire considérablement le coût de la reconnaissance de la vision artificielle, modifiant ainsi le modèle commercial et le modèle de concurrence basé sur la technologie d'origine.
Depuis 2016, des centaines d'entreprises d'intelligence artificielle ont émergé en Chine, qui dispose d'un marché énorme.Avec l'aide de la concurrence sur le marché et des capitaux, plusieurs licornes d'IA se sont progressivement formées, telles que Shangtang Technology, Cloudwalk Technology, Megvii Technology, selon Yitu Technology. , ces entreprises ont introduit l'IA dans les domaines de la sécurité, des affaires gouvernementales et de l'industrie, et ont construit un fossé en tirant parti de la sophistication des algorithmes et des avantages d'échelle.
Mais maintenant, avec le changement de technologie, l'événement peut être redémarré.
Feng Junlan, scientifique en chef de China Mobile Group et vice-président de China Artificial Intelligence Industry Development Alliance, a déclaré aux journalistes que le grand modèle d'IA apportera un nouveau paradigme d'intelligence artificielle. fondamentalement n'existe pas sous l'impact du grand modèle. . L'émergence de SAM prouve la faisabilité de grands modèles visuels, subvertissant le cadre de recherche, les méthodes d'interaction et de service de production de la vision artificielle.
Luo Xun, membre senior de l'IEEE, professeur à l'Université de technologie de Tianjin et expert en technologie AR / VR, a déclaré aux journalistes que les avantages des capacités d'IA des principales entreprises auparavant seront affaiblis dans une certaine mesure en raison de la montée de grands modèles à usage général. Mais l'affaiblissement de ces entreprises elles-mêmes dépend de leur transformation.
Voie technique
En tant que branche importante de l'IA, l'objectif de la vision artificielle est de permettre aux ordinateurs d'imiter le système visuel humain pour comprendre et traiter des images et des vidéos.
Après 2000, Geoffrey Hinton, Yann LeCun et Yoshua Bengio, connus comme les fondateurs de l'intelligence artificielle, ont percé la technologie d'apprentissage en profondeur, permettant aux machines de simuler vaguement le cerveau humain et d'apprendre et d'extraire automatiquement des caractéristiques à partir d'images massives.
2012 est une étape importante dans le temps. Le projet ImageNet créé par le professeur Li Feifei de l'Université de Stanford a propulsé l'apprentissage en profondeur dans le courant dominant : les chercheurs peuvent apprendre aux ordinateurs à reconnaître divers objets en étiquetant manuellement un grand nombre d'images, ce qui améliore considérablement la vision artificielle. Le taux de précision réduit le coût et permet de le commercialiser.
En avril 2023, de nouveaux changements sont intervenus et Meta a lancé un modèle de segmentation d'images appelé SAM. En tant que grand modèle, SAM non seulement dote la machine d'yeux pour percevoir le monde extérieur, mais dote également la machine d'un véritable cerveau.Elle apprend à observer, percevoir, penser, raisonner logiquement, et tirer des résultats à partir d'images, et le fonctionnement est extrêmement simple, similaire à ChatGPT utilise un dialogue en langage humain pour donner des commandes à la machine.
En bref, il atteint plus facilement l'objectif de la vision artificielle, sans avoir besoin d'un grand nombre d'annotations d'images et d'algorithmes d'empilement, et consomme moins de puissance de calcul. Le scientifique en intelligence artificielle de Nvidia, Jim Fan, a déclaré que le grand modèle SAM est le moment GPT-3 de la vision artificielle. Il a compris le concept général d'objets, même pour des objets inconnus, des scènes inconnues (telles que des images sous-marines) et dans des situations ambiguës Image la segmentation est également possible.
Après que Meta a publié SAM, il a également ouvert le modèle et l'ensemble de données de formation qui le sous-tend, et a introduit les scénarios d'application de SAM à partir de la réalité augmentée, de la réalité virtuelle, de la création de contenu et d'autres domaines.
Les entreprises et les chercheurs en Chine ont rapidement jugé la valeur commerciale possible du SAM. S'il est utilisé dans la conduite autonome, la surveillance de la sécurité, pour détecter les personnes, les voitures et les routes, il peut fondamentalement briser la vision artificielle traditionnelle.
Feng Junlan a déclaré que le grand modèle changera le mode d'approvisionnement de l'IA, réduira considérablement la complexité du côté de l'offre et que le coût marginal est proche de zéro ; le côté commercial peut exprimer la demande dans un langage naturel plus simple et n'a plus besoin de s'appuyer sur des instructions professionnelles telles que des codes par des ingénieurs Communiquer avec des machines et se déployer de manière flexible sur différents modèles en fonction de leurs propres besoins, améliorant ainsi l'efficacité
Zhu Bing, directeur des produits d'Uniview Technology, a déclaré aux journalistes : "Dans le passé, faire du travail d'IA était comme porter des boîtes. En fait, c'était un travail physique relativement peu technologique. Lorsque l'IA renforce une scène en un seul point, c'est très fragmentés et personnalisés, l'efficacité avant-vente, l'efficacité après-vente et l'efficacité commerciale sont toutes faibles, et l'amont et l'aval de l'industrie sont plus douloureux. Par exemple, Zhu Bing a déclaré que l'investissement et le coût des fabricants investissant dans le développement, la collecte de matériaux, l'étalonnage et la personnalisation des algorithmes pour différents scénarios et régions sont très importants.Pour les clients, les frais de développement personnalisé représentent également une dépense considérable.
Aujourd'hui, l'utilisation d'un grand modèle pour remplacer le gameplay original du petit modèle ne nécessite pas d'algorithmes d'empilement ou une grande quantité de données étiquetées, et consomme très peu de puissance de calcul dans le processus. Vous pouvez utiliser un langage humain plus simple pour donner des commandes à la machine sans à l'aide d'un langage de programmation informatique professionnel. . Zhu Bing a déclaré que le grand modèle a considérablement réduit le coût de la recherche, du développement et du déploiement de l'IA. Il a construit une série de nouveaux gameplays et restructuré l'ordre de l'industrie, en particulier dans l'industrie de la vision par ordinateur. Les précédentes barrières techniques construites par les grandes entreprises ont été lissée. , tout le monde est revenu sur la même ligne de départ.
Afflux
Autour de la génération précédente de technologie de vision artificielle, un certain nombre de sociétés d'intelligence artificielle sont nées en Chine, et les technologies fournies par ces sociétés ont commencé à être largement utilisées dans la surveillance par caméra et l'identification des inspections de sécurité pour la sécurité publique, les métros et les bâtiments commerciaux.
"AI Four Tigers" fait référence à quatre sociétés chinoises d'intelligence artificielle qui se sont successivement établies entre 2011 et 2014, à savoir SenseTime, Cloudwalk Technology, Megvii Technology et Yitu Technology. Leur caractéristique commune est la vision artificielle en tant que technologie de base. La percée de l'IA dans la voie de l'apprentissage en profondeur a fourni une base technique pour l'essor de ce groupe d'entreprises d'intelligence artificielle, et les avantages industriels de la Chine ont fourni un marché pour le développement de ces entreprises. .
Après la sortie de SAM, ils ont commencé à cibler cette technologie l'un après l'autre.
Le journaliste a appris de nombreuses personnes de l'industrie qu'en plus de Yitu Technology, SenseTime, Cloudwalk Technology et Megvii Technology, parmi les "AI Four Tigers", développaient tous des modèles visuels à grande échelle. Kangweishi et Uniview Technology déploient également des recherches technologiques connexes. et développement.
En avril, quelques jours seulement après le lancement de SAM par Meta, SenseTime a lancé le grand modèle "Daily New". Tian Feng, doyen de l'Institut de recherche sur l'industrie intelligente SenseTime, a déclaré aux journalistes que la série "Ri Ri Xin" est une collection de plusieurs grands modèles comprenant la génération de langage naturel, la génération d'images et la perception visuelle. Parmi eux, "Ruying", "Qiongyu" , "Gewu" sont de grands modèles liés à la vision.
En mai, Yuncong Technology a lancé le grand modèle "calme", qui est un grand modèle multimodal incluant la vision. Yuncong Technology a déclaré lors de la récente réunion des investisseurs que le grand modèle visuel est très important et sera lancé à l'avenir. des modèles. Parce que l'entreprise a une forte réserve en vision par ordinateur et parce qu'elle a besoin d'une technologie multimodale pour résoudre les problèmes spécifiques des clients.
Megvii et Yitu n'ont pas encore lancé de grands modèles. Megvii a déclaré aux journalistes qu'il "développe un grand modèle, mais qu'il n'a pas été lancé ni livré aux clients". En termes de direction, Megvii a sélectionné quatre directions de recherche : grand modèle d'image générale, grand modèle de compréhension vidéo, grand modèle de photographie computationnelle et grand modèle de perception de conduite autonome, et a réalisé certaines percées.
Su Lianjie, analyste en chef de l'intelligence artificielle à l'institut de recherche Omdia, a déclaré aux journalistes que sous l'impact du modèle visuel à grande échelle, les "AI Four Tigers" se sont rapidement transformés en un modèle à grande échelle et ont déployé un grand modèle multimodal. -modèle à l'échelle qui met l'accent sur la vision.relativement raisonnable.
Hikvision a déclaré aux investisseurs en juin de cette année: "Nous avons prêté attention au modèle SAM au début de sa sortie et avons effectué une évaluation systématique." Zhu Bing a déclaré aux journalistes que le modèle industriel AIoT que la société développe par elle-même " "Wutong" est un modèle industriel à grande échelle basé sur un modèle général à grande échelle + scène industrielle + formation et mise au point. Il a été publié pour la première fois le 9 mai et a été testé par le premier groupe de partenaires en juin.
Hikvision et Uniview Technology sont des entreprises de sécurité traditionnelles qui ont commencé en tant que fabricants d'équipements. Ils ont dû faire face à une concurrence féroce après l'entrée des "AI Four Tigers" dans l'industrie de la sécurité. Ils ont adopté activement la technologie de vision artificielle. part de marché.
À l'heure actuelle, les entreprises d'IA commencent à parvenir à un consensus sur la signification de "l'époque des grands modèles".
Tian Feng, doyen du SenseTime Intelligent Industry Research Institute, et Yao Zhiqiang, co-fondateur de Yuncong Technology, ont tous deux déclaré aux journalistes que l'IA1.0 est l'ère des petits modèles.Les entreprises fournissent principalement de petits modèles propriétaires et utilisent la technologie multipoint pour résoudre besoins de scène spécifiques. ; AI2.0 est l'ère des grands modèles. Les entreprises doivent utiliser une plate-forme de base technologique unifiée à grande échelle, c'est-à-dire créer un modèle de base multimodal avec des capacités générales de perception et de cognition pour le monde, et génèrent une série d'industries sur cette base.Des petits modèles pour répondre aux besoins des scènes professionnelles et des scènes plus massives.
Yao Zhiqiang estime que si une entreprise d'IA est encore au stade précédent, elle peut être en mesure de résoudre de nombreux problèmes de scène, mais le coût est difficile à réduire, ce qui rend l'effet d'échelle impossible à montrer ; Tian Feng estime que les deux époques coexistent pour longtemps, et ce n'est pas celui qui élimine l'autre.Relation inverse, les deux se complètent de manière coordonnée. Par exemple, en utilisant la structure de modèle expert hybride (MoE), à l'ère AI2.0, plusieurs modèles sont combinés en services, et les modèles 1.0 peuvent également être intégrés.
Dans la nouvelle compétition, l'accumulation de technologie d'origine et l'investissement matériel joueront toujours un rôle.
Tian Feng a déclaré aux journalistes que le centre de calcul intelligent "AI Large Device" dispose d'une puissante puissance de calcul d'IA et peut fournir une puissance de calcul de formation pour 20 grands modèles avec des centaines de milliards de paramètres. C'est l'équipement clé pour développer et former de grands modèles. uniquement pour un usage personnel, mais également ouvert aux startups à grande échelle et aux partenaires de R&D.
La personne concernée en charge de Yunwalk a déclaré aux journalistes que le système d'exploitation CWOS de la société présentait des avantages inhérents à l'intégration de modèles de super langage tels que ChatGPT. Dans le même temps, le système peut renvoyer des données et des informations au grand modèle en fonction de la situation de production réelle, optimiser la formation et l'ajustement du modèle et améliorer la précision et l'efficacité du modèle.
Le grand modèle perce le marché
"Même sans l'impact du grand modèle, les" AI Four Tigers "sont encore dans une période de confusion dans la transformation et doivent réfléchir à leur propre valeur et à leur sortie." dit Su Lianjie.
Un groupe de sociétés d'intelligence artificielle a été favorisé par le capital et le marché, parmi lesquels SenseTime et CloudWalk ont atterri sur le marché des capitaux. De 2018 à 2022, SenseTime a investi chaque année plus de 12 milliards de yuans dans la recherche et le développement et a levé plus de 5 milliards de yuans lors de son introduction en bourse en 2021. De 2018 à 2022, Yuncong a investi plus de 2,2 milliards de yuans dans la recherche et le développement chaque année, et lèvera 1,7 milliard de yuans lors de son introduction en bourse en 2022.
La bonne interaction entre la technologie et le capital a également donné à la Chine un avantage de premier plan dans le domaine de la reconnaissance visuelle.Vers 2018, la Chine était juste derrière les États-Unis ou dépassait les États-Unis en termes de nombre d'articles sur l'intelligence artificielle publiés et de quantité. du financement de l'intelligence artificielle. En particulier dans le domaine de la reconnaissance visuelle, les sociétés chinoises d'intelligence artificielle ont à plusieurs reprises battu des records dans des compétitions internationales et obtenu d'excellents résultats.
Mais bientôt, avec la promotion du marché, le potentiel de la technologie originale a progressivement culminé.En 2019, Zhang Bo, un académicien de l'Académie chinoise des sciences, a suggéré dans un entretien exclusif avec l'Observateur économique que le potentiel des applications industrielles pourrait ont été touchés sur la voie de la technologie existante. au plafond.
Plus important encore, d'un point de vue commercial, la voie technique originale de l'IA a toujours été difficile à franchir le goulot d'étranglement des coûts, de sorte que les clients de l'industrie plus traditionnels ne sont pas en mesure de payer la facture. Zhu Bing a déclaré : « Depuis de nombreuses années, nous n'avons pas vu de nouvel ordre vigoureux. Un grand nombre d'entreprises se livrent une concurrence impitoyable dans les deux voies de la reconnaissance humaine et de la plaque d'immatriculation. La raison fondamentale est que davantage d'algorithmes ne peuvent pas former un effet d'échelle. "
Un chercheur en intelligence artificielle d'une entreprise de premier plan a déclaré aux journalistes que, selon la méthode traditionnelle, une entreprise d'IA dessert une usine automobile et vend un ensemble d'algorithmes pour identifier les barrages routiers. L'algorithme unique moyen pour identifier un barrage routier coûte plus de 100 000 yuans et prend environ 2 mois. , le client doit fournir des dizaines de milliers d'images pour l'étiquetage, mais un seul algorithme ne suffit pas, la scène routière réelle est très complexe, l'algorithme qui convient aux petites voitures peut ne pas convenir aux gros camions, et il ne peut pas être reconnu sous un autre angle. Il est également difficile de reconnaître lorsque la cible de détection est partiellement occluse.
Afin d'augmenter l'intelligence des équipements, les entreprises d'IA doivent superposer plusieurs algorithmes, ce qui signifie simplement empiler de nombreux petits modèles. Selon le rapport financier, SenseTime a accumulé 67 000 petits modèles commerciaux.Le journaliste a appris de Yuncong Technology que la société possède également des milliers de petits modèles commerciaux.
Mais le temps et le coût de la formation ont également doublé.
Feng Junlan a déclaré aux journalistes qu'il est difficile pour de nombreuses entreprises d'IA de gagner de l'argent. Une raison importante est le coût élevé des services d'IA, qui fait que les entreprises "gagnent un yuan et perdent cinq yuans", et le modèle "plus il y a de commandes reçues, plus il y a de rémunération », ce qui complique la tâche des fournisseurs. De plus, le côté de la demande ne peut être que quelques industries clés ou des industries ayant de fortes capacités de paiement.
Selon le rapport financier, de 2018 à 2022, Yuncong Technology a accumulé des pertes de 3,1 milliards de yuans et SenseTime a accumulé des pertes de plus de 40 milliards de yuans.
Afin de réduire davantage le coût de l'IA et d'améliorer le marché, la stratégie des "AI Four Tigers" a également divergé. SenseTime choisit les appareils IA, Cloudwalk choisit les systèmes d'exploitation, Megvii choisit les puces et YITU choisit l'IoT.
De ce point de vue, le grand modèle peut apporter non seulement des défis aux entreprises existantes, mais également un tout nouveau modèle commercial et un nouveau scénario d'application.
Le chercheur mentionné ci-dessus a déclaré que l'entreprise s'était efforcée de trouver des activités liées à l'IA sur davantage de marchés. Par exemple, l'entreprise a déjà parlé avec un supermarché de la surveillance de l'IA pour détecter si le vendeur était présent. L'entreprise a envoyé cinq ingénieurs en algorithme, et le le salaire à lui seul coûte 300 000 yuans. Le salaire mensuel total des dizaines de vendeurs du client est inférieur à 50 000 yuans. Il a également parlé au propriétaire de l'usine de l'inspection de la qualité de l'IA, qui détecte si les boîtes d'emballage sur la chaîne de montage sont endommagées, et l'autre partie évalue qu'il est plus économique d'embaucher des travailleurs, etc.
Ces exigences sont collectivement appelées les exigences à longue traîne de l'IA : un grand nombre de clients de petite et moyenne taille, avec de faibles capacités de paiement, n'ont pas de demande rigide d'IA, mais ont des besoins particuliers dans certains scénarios, qui peuvent être utilisé ou non, et ils ne sont pas disposés à payer des millions de dollars. . De l'avis de ce chercheur, à l'avenir, un certain type de grand modèle ou un ensemble de grands modèles multimodaux pourra être appliqué à ces scénarios de détection visuelle, en utilisant la migration et les capacités générales des grands modèles, seule une petite quantité de l'annotation des données et l'investissement dans les algorithmes sont nécessaires, et le développement Le cycle et les besoins en puissance de calcul seront également plus faibles, de sorte que le coût sera considérablement réduit et que les clients seront plus susceptibles de payer.
Zhu Bing a estimé que dans le passé, les algorithmes d'IA basés sur de petits modèles pouvaient répondre à moins de 10 % des exigences de fragmentation. À l'avenir, la probabilité d'algorithmes d'IA basés sur de grands modèles peut être augmentée à plus de 50 %, et l'efficacité de l'algorithme global à longue traîne peut être multiplié par 10. Le temps peut être réduit à moins d'une semaine-personne.
Yao Zhiqiang a déclaré aux journalistes qu'une fois la technologie plateformisée et standardisée, toutes les entreprises d'IA peuvent s'adapter rapidement à des scénarios massifs et réaliser des applications massives grâce à une plate-forme de base technologique unifiée.
Feng Junlan a déclaré que le coût de la consommation de technologie est bien inférieur à la valeur que la technologie apporte aux entreprises. Lorsque cette formule est satisfaite, la technologie peut être mise à l'échelle et migrée vers des marchés plus nombreux et plus longs. Cela satisfait également la logique fondamentale pour les entreprises d'IA d'atteindre la rentabilité, et signifie également qu'elles ont la possibilité de développer davantage de marchés de l'océan bleu.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Le grand modèle de l'IA va révolutionner l'IA
Source : Observateur Economique
Auteur : Shen Yiran
En avril de cette année, plusieurs chercheurs d'une société leader dans l'intelligence artificielle se sont penchés sur une nouvelle technologie : SAM (Segment Anything Model). Les chercheurs ont rapidement signalé cette technologie au chef du département.Cette entreprise a commencé avec la technologie de vision artificielle, et la technologie sur laquelle les chercheurs se sont concentrés était également liée à cela. "Avec l'avènement de SAM, de plus en plus de gens en IA se rendent compte que les gros modèles sont un choc pour eux", a déclaré l'un des chercheurs.
Un mois plus tard, l'entreprise a commencé à allouer des ressources pour développer un grand modèle visuel.
Au cours des trois mois suivants, les principales sociétés d'intelligence artificielle en vision artificielle ont prêté attention au potentiel de cette technologie. Jusqu'à présent, des sociétés d'intelligence artificielle telles que SenseTime et CloudWalk Technology, ainsi que des sociétés de sécurité traditionnelles, ont commencé à investir dans cette nouvelle compétition technologique.
SAM est un modèle de segmentation d'image pour les scènes générales. Il a été lancé par Meta en avril de cette année. Tout comme pour parler à ChatGPT, les humains peuvent utiliser certaines instructions linguistiques pour permettre à SAM de distinguer et de réfléchir indépendamment au contenu de l'image. SAM est considéré comme be ChatGPT est apparu dans le champ de vision.
Les passionnés du monde entier l'utilisent pour dessiner, découper des images et passer un bon moment, mais les chercheurs chinois ont reconnu la puissance du SAM : s'il est utilisé dans la conduite automatique, la surveillance de la sécurité, pour détecter les personnes, les voitures et les routes, il est un grand modèle autonome qui rompt fondamentalement avec le gameplay traditionnel de la vision artificielle.
La segmentation et la reconnaissance des images est une tâche essentielle de la vision artificielle. Dans le passé, chaque tâche de création d'une image segmentée nécessitait d'entraîner un algorithme, d'annoter un lot de données et de permettre à la machine de "voir" divers objets dans l'image en superposant de petits modèles. Le SAM a montré quelques nouveautés : sans créer un petit modèle pour chaque tâche spécifique, la machine peut segmenter de manière autonome n'importe quel objet dans n'importe quelle image, même une scène inconnue et floue, et l'opération est extrêmement simple.
Cela signifie que SAM a des fonctionnalités plus générales, et il est possible d'utiliser cette fonctionnalité générale pour réduire considérablement le coût de la reconnaissance de la vision artificielle, modifiant ainsi le modèle commercial et le modèle de concurrence basé sur la technologie d'origine.
Depuis 2016, des centaines d'entreprises d'intelligence artificielle ont émergé en Chine, qui dispose d'un marché énorme.Avec l'aide de la concurrence sur le marché et des capitaux, plusieurs licornes d'IA se sont progressivement formées, telles que Shangtang Technology, Cloudwalk Technology, Megvii Technology, selon Yitu Technology. , ces entreprises ont introduit l'IA dans les domaines de la sécurité, des affaires gouvernementales et de l'industrie, et ont construit un fossé en tirant parti de la sophistication des algorithmes et des avantages d'échelle.
Mais maintenant, avec le changement de technologie, l'événement peut être redémarré.
Feng Junlan, scientifique en chef de China Mobile Group et vice-président de China Artificial Intelligence Industry Development Alliance, a déclaré aux journalistes que le grand modèle d'IA apportera un nouveau paradigme d'intelligence artificielle. fondamentalement n'existe pas sous l'impact du grand modèle. . L'émergence de SAM prouve la faisabilité de grands modèles visuels, subvertissant le cadre de recherche, les méthodes d'interaction et de service de production de la vision artificielle.
Luo Xun, membre senior de l'IEEE, professeur à l'Université de technologie de Tianjin et expert en technologie AR / VR, a déclaré aux journalistes que les avantages des capacités d'IA des principales entreprises auparavant seront affaiblis dans une certaine mesure en raison de la montée de grands modèles à usage général. Mais l'affaiblissement de ces entreprises elles-mêmes dépend de leur transformation.
Voie technique
En tant que branche importante de l'IA, l'objectif de la vision artificielle est de permettre aux ordinateurs d'imiter le système visuel humain pour comprendre et traiter des images et des vidéos.
Après 2000, Geoffrey Hinton, Yann LeCun et Yoshua Bengio, connus comme les fondateurs de l'intelligence artificielle, ont percé la technologie d'apprentissage en profondeur, permettant aux machines de simuler vaguement le cerveau humain et d'apprendre et d'extraire automatiquement des caractéristiques à partir d'images massives.
2012 est une étape importante dans le temps. Le projet ImageNet créé par le professeur Li Feifei de l'Université de Stanford a propulsé l'apprentissage en profondeur dans le courant dominant : les chercheurs peuvent apprendre aux ordinateurs à reconnaître divers objets en étiquetant manuellement un grand nombre d'images, ce qui améliore considérablement la vision artificielle. Le taux de précision réduit le coût et permet de le commercialiser.
En avril 2023, de nouveaux changements sont intervenus et Meta a lancé un modèle de segmentation d'images appelé SAM. En tant que grand modèle, SAM non seulement dote la machine d'yeux pour percevoir le monde extérieur, mais dote également la machine d'un véritable cerveau.Elle apprend à observer, percevoir, penser, raisonner logiquement, et tirer des résultats à partir d'images, et le fonctionnement est extrêmement simple, similaire à ChatGPT utilise un dialogue en langage humain pour donner des commandes à la machine.
En bref, il atteint plus facilement l'objectif de la vision artificielle, sans avoir besoin d'un grand nombre d'annotations d'images et d'algorithmes d'empilement, et consomme moins de puissance de calcul. Le scientifique en intelligence artificielle de Nvidia, Jim Fan, a déclaré que le grand modèle SAM est le moment GPT-3 de la vision artificielle. Il a compris le concept général d'objets, même pour des objets inconnus, des scènes inconnues (telles que des images sous-marines) et dans des situations ambiguës Image la segmentation est également possible.
Après que Meta a publié SAM, il a également ouvert le modèle et l'ensemble de données de formation qui le sous-tend, et a introduit les scénarios d'application de SAM à partir de la réalité augmentée, de la réalité virtuelle, de la création de contenu et d'autres domaines.
Les entreprises et les chercheurs en Chine ont rapidement jugé la valeur commerciale possible du SAM. S'il est utilisé dans la conduite autonome, la surveillance de la sécurité, pour détecter les personnes, les voitures et les routes, il peut fondamentalement briser la vision artificielle traditionnelle.
Feng Junlan a déclaré que le grand modèle changera le mode d'approvisionnement de l'IA, réduira considérablement la complexité du côté de l'offre et que le coût marginal est proche de zéro ; le côté commercial peut exprimer la demande dans un langage naturel plus simple et n'a plus besoin de s'appuyer sur des instructions professionnelles telles que des codes par des ingénieurs Communiquer avec des machines et se déployer de manière flexible sur différents modèles en fonction de leurs propres besoins, améliorant ainsi l'efficacité
Zhu Bing, directeur des produits d'Uniview Technology, a déclaré aux journalistes : "Dans le passé, faire du travail d'IA était comme porter des boîtes. En fait, c'était un travail physique relativement peu technologique. Lorsque l'IA renforce une scène en un seul point, c'est très fragmentés et personnalisés, l'efficacité avant-vente, l'efficacité après-vente et l'efficacité commerciale sont toutes faibles, et l'amont et l'aval de l'industrie sont plus douloureux. Par exemple, Zhu Bing a déclaré que l'investissement et le coût des fabricants investissant dans le développement, la collecte de matériaux, l'étalonnage et la personnalisation des algorithmes pour différents scénarios et régions sont très importants.Pour les clients, les frais de développement personnalisé représentent également une dépense considérable.
Aujourd'hui, l'utilisation d'un grand modèle pour remplacer le gameplay original du petit modèle ne nécessite pas d'algorithmes d'empilement ou une grande quantité de données étiquetées, et consomme très peu de puissance de calcul dans le processus. Vous pouvez utiliser un langage humain plus simple pour donner des commandes à la machine sans à l'aide d'un langage de programmation informatique professionnel. . Zhu Bing a déclaré que le grand modèle a considérablement réduit le coût de la recherche, du développement et du déploiement de l'IA. Il a construit une série de nouveaux gameplays et restructuré l'ordre de l'industrie, en particulier dans l'industrie de la vision par ordinateur. Les précédentes barrières techniques construites par les grandes entreprises ont été lissée. , tout le monde est revenu sur la même ligne de départ.
Afflux
Autour de la génération précédente de technologie de vision artificielle, un certain nombre de sociétés d'intelligence artificielle sont nées en Chine, et les technologies fournies par ces sociétés ont commencé à être largement utilisées dans la surveillance par caméra et l'identification des inspections de sécurité pour la sécurité publique, les métros et les bâtiments commerciaux.
"AI Four Tigers" fait référence à quatre sociétés chinoises d'intelligence artificielle qui se sont successivement établies entre 2011 et 2014, à savoir SenseTime, Cloudwalk Technology, Megvii Technology et Yitu Technology. Leur caractéristique commune est la vision artificielle en tant que technologie de base. La percée de l'IA dans la voie de l'apprentissage en profondeur a fourni une base technique pour l'essor de ce groupe d'entreprises d'intelligence artificielle, et les avantages industriels de la Chine ont fourni un marché pour le développement de ces entreprises. .
Après la sortie de SAM, ils ont commencé à cibler cette technologie l'un après l'autre.
Le journaliste a appris de nombreuses personnes de l'industrie qu'en plus de Yitu Technology, SenseTime, Cloudwalk Technology et Megvii Technology, parmi les "AI Four Tigers", développaient tous des modèles visuels à grande échelle. Kangweishi et Uniview Technology déploient également des recherches technologiques connexes. et développement.
En avril, quelques jours seulement après le lancement de SAM par Meta, SenseTime a lancé le grand modèle "Daily New". Tian Feng, doyen de l'Institut de recherche sur l'industrie intelligente SenseTime, a déclaré aux journalistes que la série "Ri Ri Xin" est une collection de plusieurs grands modèles comprenant la génération de langage naturel, la génération d'images et la perception visuelle. Parmi eux, "Ruying", "Qiongyu" , "Gewu" sont de grands modèles liés à la vision.
En mai, Yuncong Technology a lancé le grand modèle "calme", qui est un grand modèle multimodal incluant la vision. Yuncong Technology a déclaré lors de la récente réunion des investisseurs que le grand modèle visuel est très important et sera lancé à l'avenir. des modèles. Parce que l'entreprise a une forte réserve en vision par ordinateur et parce qu'elle a besoin d'une technologie multimodale pour résoudre les problèmes spécifiques des clients.
Megvii et Yitu n'ont pas encore lancé de grands modèles. Megvii a déclaré aux journalistes qu'il "développe un grand modèle, mais qu'il n'a pas été lancé ni livré aux clients". En termes de direction, Megvii a sélectionné quatre directions de recherche : grand modèle d'image générale, grand modèle de compréhension vidéo, grand modèle de photographie computationnelle et grand modèle de perception de conduite autonome, et a réalisé certaines percées.
Su Lianjie, analyste en chef de l'intelligence artificielle à l'institut de recherche Omdia, a déclaré aux journalistes que sous l'impact du modèle visuel à grande échelle, les "AI Four Tigers" se sont rapidement transformés en un modèle à grande échelle et ont déployé un grand modèle multimodal. -modèle à l'échelle qui met l'accent sur la vision.relativement raisonnable.
Hikvision a déclaré aux investisseurs en juin de cette année: "Nous avons prêté attention au modèle SAM au début de sa sortie et avons effectué une évaluation systématique." Zhu Bing a déclaré aux journalistes que le modèle industriel AIoT que la société développe par elle-même " "Wutong" est un modèle industriel à grande échelle basé sur un modèle général à grande échelle + scène industrielle + formation et mise au point. Il a été publié pour la première fois le 9 mai et a été testé par le premier groupe de partenaires en juin.
Hikvision et Uniview Technology sont des entreprises de sécurité traditionnelles qui ont commencé en tant que fabricants d'équipements. Ils ont dû faire face à une concurrence féroce après l'entrée des "AI Four Tigers" dans l'industrie de la sécurité. Ils ont adopté activement la technologie de vision artificielle. part de marché.
À l'heure actuelle, les entreprises d'IA commencent à parvenir à un consensus sur la signification de "l'époque des grands modèles".
Tian Feng, doyen du SenseTime Intelligent Industry Research Institute, et Yao Zhiqiang, co-fondateur de Yuncong Technology, ont tous deux déclaré aux journalistes que l'IA1.0 est l'ère des petits modèles.Les entreprises fournissent principalement de petits modèles propriétaires et utilisent la technologie multipoint pour résoudre besoins de scène spécifiques. ; AI2.0 est l'ère des grands modèles. Les entreprises doivent utiliser une plate-forme de base technologique unifiée à grande échelle, c'est-à-dire créer un modèle de base multimodal avec des capacités générales de perception et de cognition pour le monde, et génèrent une série d'industries sur cette base.Des petits modèles pour répondre aux besoins des scènes professionnelles et des scènes plus massives.
Yao Zhiqiang estime que si une entreprise d'IA est encore au stade précédent, elle peut être en mesure de résoudre de nombreux problèmes de scène, mais le coût est difficile à réduire, ce qui rend l'effet d'échelle impossible à montrer ; Tian Feng estime que les deux époques coexistent pour longtemps, et ce n'est pas celui qui élimine l'autre.Relation inverse, les deux se complètent de manière coordonnée. Par exemple, en utilisant la structure de modèle expert hybride (MoE), à l'ère AI2.0, plusieurs modèles sont combinés en services, et les modèles 1.0 peuvent également être intégrés.
Dans la nouvelle compétition, l'accumulation de technologie d'origine et l'investissement matériel joueront toujours un rôle.
Tian Feng a déclaré aux journalistes que le centre de calcul intelligent "AI Large Device" dispose d'une puissante puissance de calcul d'IA et peut fournir une puissance de calcul de formation pour 20 grands modèles avec des centaines de milliards de paramètres. C'est l'équipement clé pour développer et former de grands modèles. uniquement pour un usage personnel, mais également ouvert aux startups à grande échelle et aux partenaires de R&D.
La personne concernée en charge de Yunwalk a déclaré aux journalistes que le système d'exploitation CWOS de la société présentait des avantages inhérents à l'intégration de modèles de super langage tels que ChatGPT. Dans le même temps, le système peut renvoyer des données et des informations au grand modèle en fonction de la situation de production réelle, optimiser la formation et l'ajustement du modèle et améliorer la précision et l'efficacité du modèle.
Le grand modèle perce le marché
"Même sans l'impact du grand modèle, les" AI Four Tigers "sont encore dans une période de confusion dans la transformation et doivent réfléchir à leur propre valeur et à leur sortie." dit Su Lianjie.
Un groupe de sociétés d'intelligence artificielle a été favorisé par le capital et le marché, parmi lesquels SenseTime et CloudWalk ont atterri sur le marché des capitaux. De 2018 à 2022, SenseTime a investi chaque année plus de 12 milliards de yuans dans la recherche et le développement et a levé plus de 5 milliards de yuans lors de son introduction en bourse en 2021. De 2018 à 2022, Yuncong a investi plus de 2,2 milliards de yuans dans la recherche et le développement chaque année, et lèvera 1,7 milliard de yuans lors de son introduction en bourse en 2022.
La bonne interaction entre la technologie et le capital a également donné à la Chine un avantage de premier plan dans le domaine de la reconnaissance visuelle.Vers 2018, la Chine était juste derrière les États-Unis ou dépassait les États-Unis en termes de nombre d'articles sur l'intelligence artificielle publiés et de quantité. du financement de l'intelligence artificielle. En particulier dans le domaine de la reconnaissance visuelle, les sociétés chinoises d'intelligence artificielle ont à plusieurs reprises battu des records dans des compétitions internationales et obtenu d'excellents résultats.
Mais bientôt, avec la promotion du marché, le potentiel de la technologie originale a progressivement culminé.En 2019, Zhang Bo, un académicien de l'Académie chinoise des sciences, a suggéré dans un entretien exclusif avec l'Observateur économique que le potentiel des applications industrielles pourrait ont été touchés sur la voie de la technologie existante. au plafond.
Plus important encore, d'un point de vue commercial, la voie technique originale de l'IA a toujours été difficile à franchir le goulot d'étranglement des coûts, de sorte que les clients de l'industrie plus traditionnels ne sont pas en mesure de payer la facture. Zhu Bing a déclaré : « Depuis de nombreuses années, nous n'avons pas vu de nouvel ordre vigoureux. Un grand nombre d'entreprises se livrent une concurrence impitoyable dans les deux voies de la reconnaissance humaine et de la plaque d'immatriculation. La raison fondamentale est que davantage d'algorithmes ne peuvent pas former un effet d'échelle. "
Un chercheur en intelligence artificielle d'une entreprise de premier plan a déclaré aux journalistes que, selon la méthode traditionnelle, une entreprise d'IA dessert une usine automobile et vend un ensemble d'algorithmes pour identifier les barrages routiers. L'algorithme unique moyen pour identifier un barrage routier coûte plus de 100 000 yuans et prend environ 2 mois. , le client doit fournir des dizaines de milliers d'images pour l'étiquetage, mais un seul algorithme ne suffit pas, la scène routière réelle est très complexe, l'algorithme qui convient aux petites voitures peut ne pas convenir aux gros camions, et il ne peut pas être reconnu sous un autre angle. Il est également difficile de reconnaître lorsque la cible de détection est partiellement occluse.
Afin d'augmenter l'intelligence des équipements, les entreprises d'IA doivent superposer plusieurs algorithmes, ce qui signifie simplement empiler de nombreux petits modèles. Selon le rapport financier, SenseTime a accumulé 67 000 petits modèles commerciaux.Le journaliste a appris de Yuncong Technology que la société possède également des milliers de petits modèles commerciaux.
Mais le temps et le coût de la formation ont également doublé.
Feng Junlan a déclaré aux journalistes qu'il est difficile pour de nombreuses entreprises d'IA de gagner de l'argent. Une raison importante est le coût élevé des services d'IA, qui fait que les entreprises "gagnent un yuan et perdent cinq yuans", et le modèle "plus il y a de commandes reçues, plus il y a de rémunération », ce qui complique la tâche des fournisseurs. De plus, le côté de la demande ne peut être que quelques industries clés ou des industries ayant de fortes capacités de paiement.
Selon le rapport financier, de 2018 à 2022, Yuncong Technology a accumulé des pertes de 3,1 milliards de yuans et SenseTime a accumulé des pertes de plus de 40 milliards de yuans.
Afin de réduire davantage le coût de l'IA et d'améliorer le marché, la stratégie des "AI Four Tigers" a également divergé. SenseTime choisit les appareils IA, Cloudwalk choisit les systèmes d'exploitation, Megvii choisit les puces et YITU choisit l'IoT.
De ce point de vue, le grand modèle peut apporter non seulement des défis aux entreprises existantes, mais également un tout nouveau modèle commercial et un nouveau scénario d'application.
Le chercheur mentionné ci-dessus a déclaré que l'entreprise s'était efforcée de trouver des activités liées à l'IA sur davantage de marchés. Par exemple, l'entreprise a déjà parlé avec un supermarché de la surveillance de l'IA pour détecter si le vendeur était présent. L'entreprise a envoyé cinq ingénieurs en algorithme, et le le salaire à lui seul coûte 300 000 yuans. Le salaire mensuel total des dizaines de vendeurs du client est inférieur à 50 000 yuans. Il a également parlé au propriétaire de l'usine de l'inspection de la qualité de l'IA, qui détecte si les boîtes d'emballage sur la chaîne de montage sont endommagées, et l'autre partie évalue qu'il est plus économique d'embaucher des travailleurs, etc.
Ces exigences sont collectivement appelées les exigences à longue traîne de l'IA : un grand nombre de clients de petite et moyenne taille, avec de faibles capacités de paiement, n'ont pas de demande rigide d'IA, mais ont des besoins particuliers dans certains scénarios, qui peuvent être utilisé ou non, et ils ne sont pas disposés à payer des millions de dollars. . De l'avis de ce chercheur, à l'avenir, un certain type de grand modèle ou un ensemble de grands modèles multimodaux pourra être appliqué à ces scénarios de détection visuelle, en utilisant la migration et les capacités générales des grands modèles, seule une petite quantité de l'annotation des données et l'investissement dans les algorithmes sont nécessaires, et le développement Le cycle et les besoins en puissance de calcul seront également plus faibles, de sorte que le coût sera considérablement réduit et que les clients seront plus susceptibles de payer.
Zhu Bing a estimé que dans le passé, les algorithmes d'IA basés sur de petits modèles pouvaient répondre à moins de 10 % des exigences de fragmentation. À l'avenir, la probabilité d'algorithmes d'IA basés sur de grands modèles peut être augmentée à plus de 50 %, et l'efficacité de l'algorithme global à longue traîne peut être multiplié par 10. Le temps peut être réduit à moins d'une semaine-personne.
Yao Zhiqiang a déclaré aux journalistes qu'une fois la technologie plateformisée et standardisée, toutes les entreprises d'IA peuvent s'adapter rapidement à des scénarios massifs et réaliser des applications massives grâce à une plate-forme de base technologique unifiée.
Feng Junlan a déclaré que le coût de la consommation de technologie est bien inférieur à la valeur que la technologie apporte aux entreprises. Lorsque cette formule est satisfaite, la technologie peut être mise à l'échelle et migrée vers des marchés plus nombreux et plus longs. Cela satisfait également la logique fondamentale pour les entreprises d'IA d'atteindre la rentabilité, et signifie également qu'elles ont la possibilité de développer davantage de marchés de l'océan bleu.